論文の概要: Learned Image Transmission with Hierarchical Variational Autoencoder
- arxiv url: http://arxiv.org/abs/2408.16340v2
- Date: Wed, 4 Sep 2024 03:11:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-05 12:43:35.629360
- Title: Learned Image Transmission with Hierarchical Variational Autoencoder
- Title(参考訳): 階層的変分オートエンコーダを用いた学習画像伝送
- Authors: Guangyi Zhang, Hanlei Li, Yunlong Cai, Qiyu Hu, Guanding Yu, Runmin Zhang,
- Abstract要約: 画像伝送のための革新的階層型ジョイントソースチャネル符号化(HJSCC)フレームワークを提案する。
提案手法では,送信側のボトムアップパスとトップダウンパスの組み合わせを利用して,元の画像の複数の階層表現を自動回帰的に生成する。
我々はこのフレームワークをフィードバックリンク付きシナリオに拡張し、確率的サンプリングプロセスとしてノイズチャネル上での送信をモデル化する。
- 参考スコア(独自算出の注目度): 28.084648666081943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce an innovative hierarchical joint source-channel coding (HJSCC) framework for image transmission, utilizing a hierarchical variational autoencoder (VAE). Our approach leverages a combination of bottom-up and top-down paths at the transmitter to autoregressively generate multiple hierarchical representations of the original image. These representations are then directly mapped to channel symbols for transmission by the JSCC encoder. We extend this framework to scenarios with a feedback link, modeling transmission over a noisy channel as a probabilistic sampling process and deriving a novel generative formulation for JSCC with feedback. Compared with existing approaches, our proposed HJSCC provides enhanced adaptability by dynamically adjusting transmission bandwidth, encoding these representations into varying amounts of channel symbols. Additionally, we introduce a rate attention module to guide the JSCC encoder in optimizing its encoding strategy based on prior information. Extensive experiments on images of varying resolutions demonstrate that our proposed model outperforms existing baselines in rate-distortion performance and maintains robustness against channel noise.
- Abstract(参考訳): 本稿では,階層型可変オートエンコーダ(VAE)を用いて,画像伝送のための革新的な階層型共振器符号化(HJSCC)フレームワークを提案する。
提案手法では,送信側のボトムアップパスとトップダウンパスの組み合わせを利用して,元の画像の複数の階層表現を自動回帰的に生成する。
これらの表現は、JSCCエンコーダによって送信されるチャネルシンボルに直接マッピングされる。
我々は,この枠組みを,フィードバックリンク付きシナリオに拡張し,確率的サンプリングプロセスとしてノイズチャネル上での送信をモデル化し,フィードバック付きJSCCの新しい生成形式を導出する。
既存の手法と比較して,提案するHJSCCは伝送帯域幅を動的に調整し,これらの表現を様々なチャネルシンボルに符号化することで適応性を向上させる。
さらに,JSCCエンコーダを誘導するレートアテンションモジュールを導入し,事前情報に基づいて符号化戦略を最適化する。
様々な解像度の画像に対する大規模な実験により、提案モデルが既存のベースラインよりも高い速度歪み性能を示し、チャネルノイズに対するロバスト性を維持していることが示された。
関連論文リスト
- Diffusion-Aided Joint Source Channel Coding For High Realism Wireless Image Transmission [24.372996233209854]
DiffJSCCは条件拡散復調法により高現実性画像を生成する新しいフレームワークである。
768x512ピクセルのコダック画像を3072のシンボルで再現できる。
論文 参考訳(メタデータ) (2024-04-27T00:12:13Z) - AICT: An Adaptive Image Compression Transformer [18.05997169440533]
我々は、より単純で効果的なTranformerベースのチャネルワイド自動回帰事前モデルを提案し、絶対画像圧縮変換器(ICT)を実現する。
提案したICTは、潜在表現からグローバルとローカルの両方のコンテキストをキャプチャできる。
我々は、サンドイッチのConvNeXtベースのプリ/ポストプロセッサで学習可能なスケーリングモジュールを活用し、よりコンパクトな潜在表現を正確に抽出する。
論文 参考訳(メタデータ) (2023-07-12T11:32:02Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Perceptual Learned Source-Channel Coding for High-Fidelity Image
Semantic Transmission [7.692038874196345]
本稿では, 深部JSCCの最適化のために, 対向損失を導入する。
我々の新しい深層JSCCアーキテクチャは、エンコーダ、無線チャネル、デコーダ/ジェネレータ、および識別器を組み合わせたものである。
ユーザスタディでは、知覚的に類似したエンドツーエンドの画像伝送品質を達成することで、約50%の無線チャネル帯域幅コストを節約できることを確認した。
論文 参考訳(メタデータ) (2022-05-26T03:05:13Z) - Adaptive Information Bottleneck Guided Joint Source and Channel Coding
for Image Transmission [132.72277692192878]
画像伝送には適応情報ボトルネック(IB)誘導ジョイントソースとチャネル符号化(AIB-JSCC)が提案されている。
AIB-JSCCの目的は、画像再構成品質を改善しながら伝送速度を下げることである。
実験の結果,AIB-JSCCは送信データ量を大幅に削減し,再現性を向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-03-12T17:44:02Z) - Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文 参考訳(メタデータ) (2022-03-09T14:56:48Z) - StyTr^2: Unbiased Image Style Transfer with Transformers [59.34108877969477]
イメージスタイル転送の目的は、オリジナルコンテンツを維持しながら、スタイル参照によってガイドされた芸術的特徴を持つ画像をレンダリングすることである。
従来のニューラルスタイルの転送法は通常バイアスを受けており、コンテントリークは、同じ参照画像でスタイル転送プロセスの何回かの実行によって観察することができる。
我々は、この重要な問題に対処するために、トランスフォーマーベースのアプローチ、すなわちStyTr2を提案する。
論文 参考訳(メタデータ) (2021-05-30T15:57:09Z) - SNR-adaptive deep joint source-channel coding for wireless image
transmission [14.793908797250989]
本稿では, 自己エンコーダを用いた新しいディープジョイント・ソースチャネル符号化方式を提案する。
デコーダは、信号対雑音比(SNR)を推定し、それを用いて送信された画像を適応的に復号することができる。
論文 参考訳(メタデータ) (2021-01-30T10:30:04Z) - Bandwidth-Agile Image Transmission with Deep Joint Source-Channel Coding [7.081604594416339]
画像が時間や頻度で徐々に層に伝達されるシナリオを考察する。
DeepJSCC-$l$は、畳み込みオートエンコーダを使用する革新的なソリューションである。
DeepJSCC-$l$は、低信号対雑音比(SNR)と小さな帯域幅規則の挑戦において、最先端のデジタルプログレッシブ伝送方式と同等の性能を持つ。
論文 参考訳(メタデータ) (2020-09-26T00:11:50Z) - Channel-Level Variable Quantization Network for Deep Image Compression [50.3174629451739]
チャネルレベルの可変量子化ネットワークを提案し、重要なチャネルに対してより多くの畳み込みを動的に割り当て、無視可能なチャネルに対して退避する。
提案手法は優れた性能を実現し,より優れた視覚的再構成を実現する。
論文 参考訳(メタデータ) (2020-07-15T07:20:39Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。