論文の概要: Diffusion-Aided Joint Source Channel Coding For High Realism Wireless Image Transmission
- arxiv url: http://arxiv.org/abs/2404.17736v2
- Date: Wed, 17 Jul 2024 05:33:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 03:51:44.107107
- Title: Diffusion-Aided Joint Source Channel Coding For High Realism Wireless Image Transmission
- Title(参考訳): 高臨場感無線画像伝送のための拡散支援ジョイントソースチャネル符号化
- Authors: Mingyu Yang, Bowen Liu, Boyang Wang, Hun-Seok Kim,
- Abstract要約: DiffJSCCは条件拡散復調法により高現実性画像を生成する新しいフレームワークである。
768x512ピクセルのコダック画像を3072のシンボルで再現できる。
- 参考スコア(独自算出の注目度): 24.372996233209854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning-based joint source-channel coding (deep JSCC) has been demonstrated to be an effective approach for wireless image transmission. Nevertheless, most existing work adopts an autoencoder framework to optimize conventional criteria such as Mean Squared Error (MSE) and Structural Similarity Index (SSIM) which do not suffice to maintain the perceptual quality of reconstructed images. Such an issue is more prominent under stringent bandwidth constraints or low signal-to-noise ratio (SNR) conditions. To tackle this challenge, we propose DiffJSCC, a novel framework that leverages the prior knowledge of the pre-trained Statble Diffusion model to produce high-realism images via the conditional diffusion denoising process. Our DiffJSCC first extracts multimodal spatial and textual features from the noisy channel symbols in the generation phase. Then, it produces an initial reconstructed image as an intermediate representation to aid robust feature extraction and a stable training process. In the following diffusion step, DiffJSCC uses the derived multimodal features, together with channel state information such as the signal-to-noise ratio (SNR), as conditions to guide the denoising diffusion process, which converts the initial random noise to the final reconstruction. DiffJSCC employs a novel control module to fine-tune the Stable Diffusion model and adjust it to the multimodal conditions. Extensive experiments on diverse datasets reveal that our method significantly surpasses prior deep JSCC approaches on both perceptual metrics and downstream task performance, showcasing its ability to preserve the semantics of the original transmitted images. Notably, DiffJSCC can achieve highly realistic reconstructions for 768x512 pixel Kodak images with only 3072 symbols (<0.008 symbols per pixel) under 1dB SNR channels.
- Abstract(参考訳): 深層学習に基づくジョイントソースチャネル符号化(ディープJSCC)は,無線画像伝送に有効な手法であることが示されている。
しかしながら、既存のほとんどの研究では、Mean Squared Error(MSE)やStructure similarity Index(SSIM)といった、再構成画像の知覚品質を維持するのに十分でない従来の基準を最適化するオートエンコーダフレームワークを採用している。
このような問題は、厳密な帯域制限や低信号対雑音比(SNR)条件下でより顕著である。
DiffJSCCは,事前学習した統計拡散モデルの事前知識を利用して,条件付き拡散復調プロセスを通じて高現実性画像を生成する新しいフレームワークである。
我々のDiffJSCCは、生成フェーズにおけるノイズチャネルシンボルから、まずマルチモーダルな空間的特徴とテキスト的特徴を抽出する。
そして、ロバストな特徴抽出と安定した訓練プロセスを支援するために、中間表現として初期再構成画像を生成する。
次の拡散ステップでは、DiffJSCCは、導出したマルチモーダル特徴と、信号対雑音比(SNR)などのチャネル状態情報とを、初期ランダムノイズを最終再構成に変換する復調拡散過程の導出条件として利用する。
DiffJSCCは、安定拡散モデルを微調整し、マルチモーダル条件に調整するために、新しい制御モジュールを使用している。
多様なデータセットに対する広範囲な実験により,本手法は知覚的メトリクスと下流タスク性能の両方において,従来のJSCCアプローチをはるかに上回り,元の送信画像のセマンティクスを保存できることが判明した。
特に、DiffJSCCは、768x512ピクセルのKodak画像に対して、1dB SNRチャネル下で3072のシンボル(<0.008のシンボル)しか持たない非常に現実的な再構成を行うことができる。
関連論文リスト
- Diffusion-based Extreme Image Compression with Compressed Feature Initialization [29.277211609920155]
Relay Residual Diffusion Extreme Image Compression (RDEIC)を提案する。
まず, 純雑音ではなく, 付加雑音を付加した画像の圧縮潜時特徴を出発点として, 復調過程の不要な初期段階を除去する。
提案手法は,最先端の視覚的品質を達成し,既存の拡散に基づく極端画像圧縮手法よりも忠実度と効率性が優れていることを示す。
論文 参考訳(メタデータ) (2024-10-03T16:24:20Z) - Learned Image Transmission with Hierarchical Variational Autoencoder [28.084648666081943]
画像伝送のための革新的階層型ジョイントソースチャネル符号化(HJSCC)フレームワークを提案する。
提案手法では,送信側のボトムアップパスとトップダウンパスの組み合わせを利用して,元の画像の複数の階層表現を自動回帰的に生成する。
提案手法は, 周波数歪み特性において既存のベースラインより優れ, チャネルノイズに対するロバスト性を維持している。
論文 参考訳(メタデータ) (2024-08-29T08:23:57Z) - Diffusion-Driven Semantic Communication for Generative Models with Bandwidth Constraints [27.049330099874396]
本稿では,帯域制限付き生成モデルのための,高度なVAEベースの圧縮を用いた拡散駆動型セマンティック通信フレームワークを提案する。
実験の結果,ピーク信号対雑音比 (PSNR) などの画素レベルの指標と,LPIPS (Learning Perceptual Image patch similarity) のような意味的指標が大幅に改善された。
論文 参考訳(メタデータ) (2024-07-26T02:34:25Z) - Improving the Stability and Efficiency of Diffusion Models for Content Consistent Super-Resolution [18.71638301931374]
画像超解像 (SR) 結果の視覚的品質を高めるために, 予め訓練した潜伏拡散モデル (DM) の生成先行が大きな可能性を示唆している。
本稿では、生成SR過程を2段階に分割し、DMを画像構造再構築に、GANを細かな細部改善に使用することを提案する。
トレーニングを済ませると、提案手法、すなわちコンテンツ一貫性超解像(CCSR)は、推論段階における異なる拡散ステップの柔軟な利用を可能にする。
論文 参考訳(メタデータ) (2023-12-30T10:22:59Z) - DGNet: Dynamic Gradient-Guided Network for Water-Related Optics Image
Enhancement [77.0360085530701]
水中画像強調(UIE)は、水中環境によって引き起こされる複雑な劣化のために難しい課題である。
従来の手法では、劣化過程を理想化し、中音や物体の動きが画像の特徴の分布に与える影響を無視することが多い。
提案手法では,予測画像を用いて疑似ラベルを動的に更新し,動的勾配を加えてネットワークの勾配空間を最適化する。
論文 参考訳(メタデータ) (2023-12-12T06:07:21Z) - DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。
画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。
MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-12-11T18:38:28Z) - High Perceptual Quality Wireless Image Delivery with Denoising Diffusion
Models [10.763194436114194]
深層学習を用いたジョイントソースチャネル符号化(DeepJSCC)によるノイズの多い無線チャネル上の画像伝送問題について検討する。
対象画像のレンジ・ヌル空間分解を利用した新しい手法を提案する。
再建画像の歪みと知覚的品質は,標準的なDeepJSCCや最先端の生成学習法と比較して有意に向上した。
論文 参考訳(メタデータ) (2023-09-27T16:30:59Z) - Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。
本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T03:08:28Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Denoising Diffusion Models for Plug-and-Play Image Restoration [135.6359475784627]
本稿では,従来のプラグアンドプレイ方式を拡散サンプリングフレームワークに統合したDiffPIRを提案する。
DiffPIRは、差別的なガウスのデノイザーに依存するプラグアンドプレイIR法と比較して、拡散モデルの生成能力を継承することが期待されている。
論文 参考訳(メタデータ) (2023-05-15T20:24:38Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。