論文の概要: Learned Image Transmission with Hierarchical Variational Autoencoder
- arxiv url: http://arxiv.org/abs/2408.16340v3
- Date: Tue, 10 Sep 2024 06:35:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 22:22:10.054364
- Title: Learned Image Transmission with Hierarchical Variational Autoencoder
- Title(参考訳): 階層的変分オートエンコーダを用いた学習画像伝送
- Authors: Guangyi Zhang, Hanlei Li, Yunlong Cai, Qiyu Hu, Guanding Yu, Runmin Zhang,
- Abstract要約: 画像伝送のための革新的階層型ジョイントソースチャネル符号化(HJSCC)フレームワークを提案する。
提案手法では,送信側のボトムアップパスとトップダウンパスの組み合わせを利用して,元の画像の複数の階層表現を自動回帰的に生成する。
提案手法は, 周波数歪み特性において既存のベースラインより優れ, チャネルノイズに対するロバスト性を維持している。
- 参考スコア(独自算出の注目度): 28.084648666081943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce an innovative hierarchical joint source-channel coding (HJSCC) framework for image transmission, utilizing a hierarchical variational autoencoder (VAE). Our approach leverages a combination of bottom-up and top-down paths at the transmitter to autoregressively generate multiple hierarchical representations of the original image. These representations are then directly mapped to channel symbols for transmission by the JSCC encoder. We extend this framework to scenarios with a feedback link, modeling transmission over a noisy channel as a probabilistic sampling process and deriving a novel generative formulation for JSCC with feedback. Compared with existing approaches, our proposed HJSCC provides enhanced adaptability by dynamically adjusting transmission bandwidth, encoding these representations into varying amounts of channel symbols. Extensive experiments on images of varying resolutions demonstrate that our proposed model outperforms existing baselines in rate-distortion performance and maintains robustness against channel noise. The source code will be made available upon acceptance.
- Abstract(参考訳): 本稿では,階層型可変オートエンコーダ(VAE)を用いて,画像伝送のための革新的な階層型共振器符号化(HJSCC)フレームワークを提案する。
提案手法では,送信側のボトムアップパスとトップダウンパスの組み合わせを利用して,元の画像の複数の階層表現を自動回帰的に生成する。
これらの表現は、JSCCエンコーダによって送信されるチャネルシンボルに直接マッピングされる。
我々は,この枠組みを,フィードバックリンク付きシナリオに拡張し,確率的サンプリングプロセスとしてノイズチャネル上での送信をモデル化し,フィードバック付きJSCCの新しい生成形式を導出する。
既存の手法と比較して,提案するHJSCCは伝送帯域幅を動的に調整し,これらの表現を様々なチャネルシンボルに符号化することで適応性を向上させる。
様々な解像度の画像に対する大規模な実験により、提案モデルが既存のベースラインよりも高い速度歪み性能を示し、チャネルノイズに対するロバスト性を維持していることが示された。
ソースコードは受理時に利用可能になる。
関連論文リスト
- Oscillation Inversion: Understand the structure of Large Flow Model through the Lens of Inversion Method [60.88467353578118]
実世界のイメージを逆転させる固定点インスパイアされた反復的アプローチは収束を達成せず、異なるクラスタ間で振動することを示す。
本稿では,画像強調,ストロークベースのリカラー化,および視覚的プロンプト誘導画像編集を容易にする,シンプルで高速な分布転送手法を提案する。
論文 参考訳(メタデータ) (2024-11-17T17:45:37Z) - Diffusion-Aided Joint Source Channel Coding For High Realism Wireless Image Transmission [24.372996233209854]
DiffJSCCは条件拡散復調法により高現実性画像を生成する新しいフレームワークである。
768x512ピクセルのコダック画像を3072のシンボルで再現できる。
論文 参考訳(メタデータ) (2024-04-27T00:12:13Z) - In-Domain GAN Inversion for Faithful Reconstruction and Editability [132.68255553099834]
ドメイン誘導型ドメイン正規化とエンコーダで構成されたドメイン内GANインバージョンを提案し、事前学習されたGANモデルのネイティブ潜在空間における反転コードを正規化する。
エンコーダ構造,開始反転点,および逆パラメータ空間の効果を総合的に解析し,再構成品質と編集特性とのトレードオフを観察する。
論文 参考訳(メタデータ) (2023-09-25T08:42:06Z) - AICT: An Adaptive Image Compression Transformer [18.05997169440533]
我々は、より単純で効果的なTranformerベースのチャネルワイド自動回帰事前モデルを提案し、絶対画像圧縮変換器(ICT)を実現する。
提案したICTは、潜在表現からグローバルとローカルの両方のコンテキストをキャプチャできる。
我々は、サンドイッチのConvNeXtベースのプリ/ポストプロセッサで学習可能なスケーリングモジュールを活用し、よりコンパクトな潜在表現を正確に抽出する。
論文 参考訳(メタデータ) (2023-07-12T11:32:02Z) - Real-World Image Variation by Aligning Diffusion Inversion Chain [53.772004619296794]
生成した画像と実世界の画像の間にはドメインギャップがあり、これは実世界の画像の高品質なバリエーションを生成する上での課題である。
実世界画像のアライメントによる変化(RIVAL)と呼ばれる新しい推論パイプラインを提案する。
我々のパイプラインは、画像生成プロセスとソース画像の反転チェーンを整列させることにより、画像の変動の生成品質を向上させる。
論文 参考訳(メタデータ) (2023-05-30T04:09:47Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文 参考訳(メタデータ) (2022-03-09T14:56:48Z) - SNR-adaptive deep joint source-channel coding for wireless image
transmission [14.793908797250989]
本稿では, 自己エンコーダを用いた新しいディープジョイント・ソースチャネル符号化方式を提案する。
デコーダは、信号対雑音比(SNR)を推定し、それを用いて送信された画像を適応的に復号することができる。
論文 参考訳(メタデータ) (2021-01-30T10:30:04Z) - Bandwidth-Agile Image Transmission with Deep Joint Source-Channel Coding [7.081604594416339]
画像が時間や頻度で徐々に層に伝達されるシナリオを考察する。
DeepJSCC-$l$は、畳み込みオートエンコーダを使用する革新的なソリューションである。
DeepJSCC-$l$は、低信号対雑音比(SNR)と小さな帯域幅規則の挑戦において、最先端のデジタルプログレッシブ伝送方式と同等の性能を持つ。
論文 参考訳(メタデータ) (2020-09-26T00:11:50Z) - Wireless Image Retrieval at the Edge [20.45405359815043]
本研究では、エッジデバイスが画像をキャプチャし、エッジサーバから同様の画像を検索するために使用される無線エッジにおける画像検索問題について検討する。
我々の目標は、無線リンクに対する電力及び帯域幅制約下での検索タスクの精度を最大化することである。
本稿では,デジタル通信とアナログ通信の2つの方法を提案する。
論文 参考訳(メタデータ) (2020-07-21T16:15:40Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。