Fugu-MT 論文翻訳(概要): Learned Image Transmission with Hierarchical Variational Autoencoder

論文の概要: Learned Image Transmission with Hierarchical Variational Autoencoder

arxiv url: http://arxiv.org/abs/2408.16340v3
Date: Tue, 10 Sep 2024 06:35:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-11 22:22:10.054364
Title: Learned Image Transmission with Hierarchical Variational Autoencoder
Title（参考訳）: 階層的変分オートエンコーダを用いた学習画像伝送
Authors: Guangyi Zhang, Hanlei Li, Yunlong Cai, Qiyu Hu, Guanding Yu, Runmin Zhang,
Abstract要約: 画像伝送のための革新的階層型ジョイントソースチャネル符号化(HJSCC)フレームワークを提案する。提案手法では,送信側のボトムアップパスとトップダウンパスの組み合わせを利用して,元の画像の複数の階層表現を自動回帰的に生成する。提案手法は, 周波数歪み特性において既存のベースラインより優れ, チャネルノイズに対するロバスト性を維持している。
参考スコア（独自算出の注目度）: 28.084648666081943
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we introduce an innovative hierarchical joint source-channel coding (HJSCC) framework for image transmission, utilizing a hierarchical variational autoencoder (VAE). Our approach leverages a combination of bottom-up and top-down paths at the transmitter to autoregressively generate multiple hierarchical representations of the original image. These representations are then directly mapped to channel symbols for transmission by the JSCC encoder. We extend this framework to scenarios with a feedback link, modeling transmission over a noisy channel as a probabilistic sampling process and deriving a novel generative formulation for JSCC with feedback. Compared with existing approaches, our proposed HJSCC provides enhanced adaptability by dynamically adjusting transmission bandwidth, encoding these representations into varying amounts of channel symbols. Extensive experiments on images of varying resolutions demonstrate that our proposed model outperforms existing baselines in rate-distortion performance and maintains robustness against channel noise. The source code will be made available upon acceptance.
Abstract（参考訳）: 本稿では,階層型可変オートエンコーダ(VAE)を用いて,画像伝送のための革新的な階層型共振器符号化(HJSCC)フレームワークを提案する。提案手法では,送信側のボトムアップパスとトップダウンパスの組み合わせを利用して,元の画像の複数の階層表現を自動回帰的に生成する。これらの表現は、JSCCエンコーダによって送信されるチャネルシンボルに直接マッピングされる。我々は,この枠組みを,フィードバックリンク付きシナリオに拡張し,確率的サンプリングプロセスとしてノイズチャネル上での送信をモデル化し,フィードバック付きJSCCの新しい生成形式を導出する。既存の手法と比較して,提案するHJSCCは伝送帯域幅を動的に調整し,これらの表現を様々なチャネルシンボルに符号化することで適応性を向上させる。様々な解像度の画像に対する大規模な実験により、提案モデルが既存のベースラインよりも高い速度歪み性能を示し、チャネルノイズに対するロバスト性を維持していることが示された。ソースコードは受理時に利用可能になる。

関連論文リスト

Joint Source-Channel-Generation Coding: From Distortion-oriented Reconstruction to Semantic-consistent Generation [58.67925548779465]
本稿では,知覚的再構成から確率的生成へ焦点を移す新しいパラダイムとして,JSCGC(Joint Source-Channel-Generation Coding)を提案する。 JSCGCは意味的品質と意味的忠実性を大幅に改善し、従来の歪み指向J SCC法よりも大幅に向上する。
論文参考訳（メタデータ） (2026-01-19T08:12:47Z)
Context Video Semantic Transmission with Variable Length and Rate Coding over MIMO Channels [49.624608869195065]
無線ビデオ伝送のためのコンテキストビデオセマンティックトランスミッション(CVST)フレームワークを提案する。我々は、特徴群と多重入力多重出力(MIMO)サブチャネルの関係を明確に定式化するために、コンテキストチャネル相関マップを学習する。近年の無線ビデオ・セマンティック・コミュニケーション・アプローチにおいて,標準化された分離符号化方式に対して性能が大幅に向上したことを示す。
論文参考訳（メタデータ） (2025-12-23T10:48:43Z)
VQ-DeepISC: Vector Quantized-Enabled Digital Semantic Communication with Channel Adaptive Image Transmission [8.858565507331395]
意味的特徴の離散化は、意味的コミュニケーションシステムとデジタルコミュニケーションシステムの相互運用を可能にする。チャネル適応画像伝送を用いたベクトル量子化(VQ)対応ディジタルセマンティック通信システムを提案する。
論文参考訳（メタデータ） (2025-08-01T02:35:34Z)
WVSC: Wireless Video Semantic Communication with Multi-frame Compensation [56.63352157833874]
既存の無線ビデオ伝送方式は画素レベルで直接映像符号化を行う。本稿では,WVSCと略される無線ビデオセマンティック通信フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-27T06:27:15Z)
SING: Semantic Image Communications using Null-Space and INN-Guided Diffusion Models [52.40011613324083]
近年, 無線画像伝送において, 共用音源チャネル符号化システム (DeepJSCC) が顕著な性能を発揮している。既存の手法では、送信された画像とレシーバーの再構成されたバージョンとの間の歪みを最小限に抑えることに重点を置いており、しばしば知覚的品質を見落としている。逆問題として,破損した再構成画像から高品質な画像の復元を定式化する新しいフレームワークであるSINGを提案する。
論文参考訳（メタデータ） (2025-03-16T12:32:11Z)
Oscillation Inversion: Understand the structure of Large Flow Model through the Lens of Inversion Method [60.88467353578118]
実世界のイメージを逆転させる固定点インスパイアされた反復的アプローチは収束を達成せず、異なるクラスタ間で振動することを示す。本稿では,画像強調,ストロークベースのリカラー化,および視覚的プロンプト誘導画像編集を容易にする,シンプルで高速な分布転送手法を提案する。
論文参考訳（メタデータ） (2024-11-17T17:45:37Z)
Diffusion-Driven Semantic Communication for Generative Models with Bandwidth Constraints [66.63250537475973]
本稿では,帯域制限付き生成モデルのための,高度なVAEベースの圧縮を用いた拡散駆動型セマンティック通信フレームワークを提案する。実験の結果,ピーク信号対雑音比 (PSNR) などの画素レベルの指標と,LPIPS (Learning Perceptual Image patch similarity) のような意味的指標が大幅に改善された。
論文参考訳（メタデータ） (2024-07-26T02:34:25Z)
Diffusion-Aided Joint Source Channel Coding For High Realism Wireless Image Transmission [24.372996233209854]
DiffJSCCは条件拡散復調法により高現実性画像を生成する新しいフレームワークである。 768x512ピクセルのコダック画像を3072のシンボルで再現できる。
論文参考訳（メタデータ） (2024-04-27T00:12:13Z)
In-Domain GAN Inversion for Faithful Reconstruction and Editability [132.68255553099834]
ドメイン誘導型ドメイン正規化とエンコーダで構成されたドメイン内GANインバージョンを提案し、事前学習されたGANモデルのネイティブ潜在空間における反転コードを正規化する。エンコーダ構造,開始反転点,および逆パラメータ空間の効果を総合的に解析し,再構成品質と編集特性とのトレードオフを観察する。
論文参考訳（メタデータ） (2023-09-25T08:42:06Z)
AICT: An Adaptive Image Compression Transformer [18.05997169440533]
我々は、より単純で効果的なTranformerベースのチャネルワイド自動回帰事前モデルを提案し、絶対画像圧縮変換器(ICT)を実現する。提案したICTは、潜在表現からグローバルとローカルの両方のコンテキストをキャプチャできる。我々は、サンドイッチのConvNeXtベースのプリ/ポストプロセッサで学習可能なスケーリングモジュールを活用し、よりコンパクトな潜在表現を正確に抽出する。
論文参考訳（メタデータ） (2023-07-12T11:32:02Z)
Real-World Image Variation by Aligning Diffusion Inversion Chain [53.772004619296794]
生成した画像と実世界の画像の間にはドメインギャップがあり、これは実世界の画像の高品質なバリエーションを生成する上での課題である。実世界画像のアライメントによる変化(RIVAL)と呼ばれる新しい推論パイプラインを提案する。我々のパイプラインは、画像生成プロセスとソース画像の反転チェーンを整列させることにより、画像の変動の生成品質を向上させる。
論文参考訳（メタデータ） (2023-05-30T04:09:47Z)
Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文参考訳（メタデータ） (2022-06-30T18:31:51Z)
Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文参考訳（メタデータ） (2022-03-09T14:56:48Z)
SNR-adaptive deep joint source-channel coding for wireless image transmission [14.793908797250989]
本稿では, 自己エンコーダを用いた新しいディープジョイント・ソースチャネル符号化方式を提案する。デコーダは、信号対雑音比(SNR)を推定し、それを用いて送信された画像を適応的に復号することができる。
論文参考訳（メタデータ） (2021-01-30T10:30:04Z)
Bandwidth-Agile Image Transmission with Deep Joint Source-Channel Coding [7.081604594416339]
画像が時間や頻度で徐々に層に伝達されるシナリオを考察する。 DeepJSCC-$l$は、畳み込みオートエンコーダを使用する革新的なソリューションである。 DeepJSCC-$l$は、低信号対雑音比(SNR)と小さな帯域幅規則の挑戦において、最先端のデジタルプログレッシブ伝送方式と同等の性能を持つ。
論文参考訳（メタデータ） (2020-09-26T00:11:50Z)
Wireless Image Retrieval at the Edge [20.45405359815043]
本研究では、エッジデバイスが画像をキャプチャし、エッジサーバから同様の画像を検索するために使用される無線エッジにおける画像検索問題について検討する。我々の目標は、無線リンクに対する電力及び帯域幅制約下での検索タスクの精度を最大化することである。本稿では,デジタル通信とアナログ通信の2つの方法を提案する。
論文参考訳（メタデータ） (2020-07-21T16:15:40Z)
An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文参考訳（メタデータ） (2020-01-09T14:18:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。