論文の概要: Generative Semantic Coding for Ultra-Low Bitrate Visual Communication and Analysis
- arxiv url: http://arxiv.org/abs/2510.27324v1
- Date: Fri, 31 Oct 2025 09:49:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.055942
- Title: Generative Semantic Coding for Ultra-Low Bitrate Visual Communication and Analysis
- Title(参考訳): 超低ビットレート視覚通信・解析のための生成セマンティック符号化
- Authors: Weiming Chen, Yijia Wang, Zhihan Zhu, Zhihai He,
- Abstract要約: 本稿では,遠隔視覚分析,ヒューマンインタラクション,制御における超低ビットレート視覚コミュニケーションの課題について考察する。
既存のテキスト画像生成モデルは、ウルトラロー画像記述のための新しいアプローチを提供する。
本稿では,画像生成と深部画像圧縮をシームレスに統合する手法を提案する。
- 参考スコア(独自算出の注目度): 21.58536615585589
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We consider the problem of ultra-low bit rate visual communication for remote vision analysis, human interactions and control in challenging scenarios with very low communication bandwidth, such as deep space exploration, battlefield intelligence, and robot navigation in complex environments. In this paper, we ask the following important question: can we accurately reconstruct the visual scene using only a very small portion of the bit rate in existing coding methods while not sacrificing the accuracy of vision analysis and performance of human interactions? Existing text-to-image generation models offer a new approach for ultra-low bitrate image description. However, they can only achieve a semantic-level approximation of the visual scene, which is far insufficient for the purpose of visual communication and remote vision analysis and human interactions. To address this important issue, we propose to seamlessly integrate image generation with deep image compression, using joint text and coding latent to guide the rectified flow models for precise generation of the visual scene. The semantic text description and coding latent are both encoded and transmitted to the decoder at a very small bit rate. Experimental results demonstrate that our method can achieve the same image reconstruction quality and vision analysis accuracy as existing methods while using much less bandwidth. The code will be released upon paper acceptance.
- Abstract(参考訳): 複雑な環境下での深宇宙探査,戦場知能,ロボットナビゲーションなど,通信帯域が極めて少ない難易度シナリオにおける,遠隔ビジョン分析,ヒューマンインタラクション,制御のための超低ビットレート視覚通信の問題点を考察する。
本稿では,既存の符号化手法のビットレートのごく一部だけを用いて,視覚解析の精度と人間のインタラクションの性能を犠牲にすることなく,視覚的シーンを正確に再構築することができるか,という課題を提起する。
既存のテキスト画像生成モデルは、超低ビットレート画像記述のための新しいアプローチを提供する。
しかし,視覚コミュニケーションや遠隔視力分析,人間との相互作用の目的では不十分な視覚シーンのセマンティックレベルの近似しか達成できない。
この重要な問題に対処するために,画像生成と深部画像圧縮をシームレスに統合する手法を提案する。
セマンティックテキスト記述と符号化ラテントは共に符号化され、非常に小さなビットレートでデコーダに送信される。
実験結果から,本手法は既存の手法と同じ画像再構成品質と視覚解析精度を,帯域幅をはるかに少なくして実現可能であることが示された。
コードは受理後に公開される。
関連論文リスト
- IntelliCap: Intelligent Guidance for Consistent View Sampling [14.791526418738218]
高品質なビュー合成には一様で高密度なビューサンプリングが必要である。
画像取得中に人間を誘導する既存のアプローチは、単一のオブジェクトに集中している。
複数スケールでスキャンを行うための新しい位置可視化手法を提案する。
論文 参考訳(メタデータ) (2025-08-18T16:00:31Z) - Few-shot Semantic Encoding and Decoding for Video Surveillance [21.903192316918652]
既存のセマンティックデコーディング手法では、シーンごとにニューラルネットワークをトレーニングするために多くのサンプルが必要である。
本研究では,監視ビデオのセマンティックエンコーディングと復号化手法を提案する。
提案手法は,監視シーン毎に少数のトレーニングサンプルのみを必要とする,新しいセマンティックエンコーディングとデコード手法を提供する。
論文 参考訳(メタデータ) (2025-05-12T09:27:28Z) - UNIT: Unifying Image and Text Recognition in One Vision Encoder [51.140564856352825]
UNITは、単一のモデル内で画像とテキストの認識を統一することを目的とした、新しいトレーニングフレームワークである。
文書関連タスクにおいて,UNITが既存の手法を著しく上回ることを示す。
注目すべきなのは、UNITはオリジナルのビジョンエンコーダアーキテクチャを保持しており、推論とデプロイメントの点で費用がかからないことだ。
論文 参考訳(メタデータ) (2024-09-06T08:02:43Z) - Compressed Image Captioning using CNN-based Encoder-Decoder Framework [0.0]
畳み込みニューラルネットワーク(CNN)とエンコーダ・デコーダモデルの強みを組み合わせた自動画像キャプションアーキテクチャを開発した。
また、事前訓練されたCNNモデルの領域を掘り下げた性能比較も行います。
我々はまた,周波数正規化手法を統合して "AlexNet" と "EfficientNetB0" モデルを圧縮する手法についても検討した。
論文 参考訳(メタデータ) (2024-04-28T03:47:48Z) - TextCraftor: Your Text Encoder Can be Image Quality Controller [65.27457900325462]
拡散に基づくテキスト・画像生成モデル(例えば、安定拡散)は、コンテンツ生成の分野に革命をもたらした。
本研究では,テキスト・ツー・イメージ拡散モデルの性能を向上させるための微調整手法であるTextCraftorを提案する。
論文 参考訳(メタデータ) (2024-03-27T19:52:55Z) - Human-imperceptible, Machine-recognizable Images [76.01951148048603]
より良い開発AIシステムと、センシティブなトレーニングデータから距離を置くことの間の、ソフトウェアエンジニアに関する大きな対立が露呈している。
画像が暗号化され、人間に認識され、機械に認識される」という、効率的なプライバシー保護学習パラダイムを提案する。
提案手法は,機械が認識可能な情報を保存しながら,暗号化された画像が人間に認識されなくなることを保証できることを示す。
論文 参考訳(メタデータ) (2023-06-06T13:41:37Z) - Preprocessing Enhanced Image Compression for Machine Vision [14.895698385236937]
本稿では,マシンビジョンタスクのための前処理による画像圧縮手法を提案する。
私たちのフレームワークは従来の非微分コーデックの上に構築されています。
実験の結果,提案手法は,約20%の節約により,ダウンストリームマシンビジョンタスクのコーディングと性能のトレードオフを向上することが示された。
論文 参考訳(メタデータ) (2022-06-12T03:36:38Z) - Remote Sensing Novel View Synthesis with Implicit Multiplane
Representations [26.33490094119609]
暗黙的ニューラル表現の最近の進歩を活用して,新しいリモートセンシングビュー合成法を提案する。
リモートセンシング画像のオーバーヘッドと遠距離イメージングを考慮し,暗黙のマルチプレーン画像(MPI)表現とディープニューラルネットワークを組み合わせることで,3次元空間を表現する。
任意の新規ビューの画像は、再構成されたモデルに基づいて自由にレンダリングすることができる。
論文 参考訳(メタデータ) (2022-05-18T13:03:55Z) - A Shared Representation for Photorealistic Driving Simulators [83.5985178314263]
本稿では、識別器アーキテクチャを再考することにより、生成画像の品質を向上させることを提案する。
シーンセグメンテーションマップや人体ポーズといったセマンティックインプットによって画像が生成されるという問題に焦点が当てられている。
我々は,意味的セグメンテーション,コンテンツ再構成,および粗い粒度の逆解析を行うのに十分な情報をエンコードする,共有潜在表現を学習することを目指している。
論文 参考訳(メタデータ) (2021-12-09T18:59:21Z) - Video Coding for Machine: Compact Visual Representation Compression for
Intelligent Collaborative Analytics [101.35754364753409]
Video Coding for Machines (VCM) は、ビデオ/画像圧縮と特徴圧縮をある程度別々の研究トラックにブリッジすることを約束している。
本稿では,既存の学術・産業活動に基づくVCM方法論と哲学を要約する。
論文 参考訳(メタデータ) (2021-10-18T12:42:13Z) - Towards Coding for Human and Machine Vision: A Scalable Image Coding
Approach [104.02201472370801]
圧縮モデルと生成モデルの両方を活用することにより,新しい画像符号化フレームワークを考案した。
高度な生成モデルを導入することで、コンパクトな特徴表現と参照画素から画像を再構成するフレキシブルネットワークを訓練する。
実験により、人間の視覚的品質と顔のランドマーク検出の両方において、我々の枠組みが優れていることが示された。
論文 参考訳(メタデータ) (2020-01-09T10:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。