論文の概要: Diffusion-Aided Joint Source Channel Coding For High Realism Wireless Image Transmission
- arxiv url: http://arxiv.org/abs/2404.17736v2
- Date: Wed, 17 Jul 2024 05:33:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 03:51:44.107107
- Title: Diffusion-Aided Joint Source Channel Coding For High Realism Wireless Image Transmission
- Title(参考訳): 高臨場感無線画像伝送のための拡散支援ジョイントソースチャネル符号化
- Authors: Mingyu Yang, Bowen Liu, Boyang Wang, Hun-Seok Kim,
- Abstract要約: DiffJSCCは条件拡散復調法により高現実性画像を生成する新しいフレームワークである。
768x512ピクセルのコダック画像を3072のシンボルで再現できる。
- 参考スコア(独自算出の注目度): 24.372996233209854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning-based joint source-channel coding (deep JSCC) has been demonstrated to be an effective approach for wireless image transmission. Nevertheless, most existing work adopts an autoencoder framework to optimize conventional criteria such as Mean Squared Error (MSE) and Structural Similarity Index (SSIM) which do not suffice to maintain the perceptual quality of reconstructed images. Such an issue is more prominent under stringent bandwidth constraints or low signal-to-noise ratio (SNR) conditions. To tackle this challenge, we propose DiffJSCC, a novel framework that leverages the prior knowledge of the pre-trained Statble Diffusion model to produce high-realism images via the conditional diffusion denoising process. Our DiffJSCC first extracts multimodal spatial and textual features from the noisy channel symbols in the generation phase. Then, it produces an initial reconstructed image as an intermediate representation to aid robust feature extraction and a stable training process. In the following diffusion step, DiffJSCC uses the derived multimodal features, together with channel state information such as the signal-to-noise ratio (SNR), as conditions to guide the denoising diffusion process, which converts the initial random noise to the final reconstruction. DiffJSCC employs a novel control module to fine-tune the Stable Diffusion model and adjust it to the multimodal conditions. Extensive experiments on diverse datasets reveal that our method significantly surpasses prior deep JSCC approaches on both perceptual metrics and downstream task performance, showcasing its ability to preserve the semantics of the original transmitted images. Notably, DiffJSCC can achieve highly realistic reconstructions for 768x512 pixel Kodak images with only 3072 symbols (<0.008 symbols per pixel) under 1dB SNR channels.
- Abstract(参考訳): 深層学習に基づくジョイントソースチャネル符号化(ディープJSCC)は,無線画像伝送に有効な手法であることが示されている。
しかしながら、既存のほとんどの研究では、Mean Squared Error(MSE)やStructure similarity Index(SSIM)といった、再構成画像の知覚品質を維持するのに十分でない従来の基準を最適化するオートエンコーダフレームワークを採用している。
このような問題は、厳密な帯域制限や低信号対雑音比(SNR)条件下でより顕著である。
DiffJSCCは,事前学習した統計拡散モデルの事前知識を利用して,条件付き拡散復調プロセスを通じて高現実性画像を生成する新しいフレームワークである。
我々のDiffJSCCは、生成フェーズにおけるノイズチャネルシンボルから、まずマルチモーダルな空間的特徴とテキスト的特徴を抽出する。
そして、ロバストな特徴抽出と安定した訓練プロセスを支援するために、中間表現として初期再構成画像を生成する。
次の拡散ステップでは、DiffJSCCは、導出したマルチモーダル特徴と、信号対雑音比(SNR)などのチャネル状態情報とを、初期ランダムノイズを最終再構成に変換する復調拡散過程の導出条件として利用する。
DiffJSCCは、安定拡散モデルを微調整し、マルチモーダル条件に調整するために、新しい制御モジュールを使用している。
多様なデータセットに対する広範囲な実験により,本手法は知覚的メトリクスと下流タスク性能の両方において,従来のJSCCアプローチをはるかに上回り,元の送信画像のセマンティクスを保存できることが判明した。
特に、DiffJSCCは、768x512ピクセルのKodak画像に対して、1dB SNRチャネル下で3072のシンボル(<0.008のシンボル)しか持たない非常に現実的な再構成を行うことができる。
関連論文リスト
- One Diffusion Step to Real-World Super-Resolution via Flow Trajectory Distillation [60.54811860967658]
FluxSRはフローマッチングモデルに基づく新しい一段階拡散リアルISRである。
まず,フロートラジェクトリ蒸留(FTD)を導入し,多段階のフローマッチングモデルを1段階のリアルISRに蒸留する。
第2に、画像リアリズムを改善し、生成画像の高周波アーティファクト問題に対処するために、テレビLPIPSを知覚的損失として提案する。
論文 参考訳(メタデータ) (2025-02-04T04:11:29Z) - MSF: Efficient Diffusion Model Via Multi-Scale Latent Factorize [27.749096921628457]
本稿では,階層的な視覚表現を生成するマルチスケール拡散フレームワークを提案する。
提案手法は,ImageNet 256x256ベンチマークにおいて2.2のFIDと255.4のISを実現し,ベースライン法と比較して計算コストを50%削減する。
論文 参考訳(メタデータ) (2025-01-23T03:18:23Z) - FaithDiff: Unleashing Diffusion Priors for Faithful Image Super-resolution [48.88184541515326]
本稿では,忠実な画像SRのための遅延拡散モデル(LDM)のパワーをフル活用するために,FithDiffというシンプルで効果的な手法を提案する。
高品質画像上で事前学習した拡散モデルを凍結する既存の拡散ベースSR法とは対照的に,有用な情報を特定し,忠実な構造を復元する前に拡散を解き放つことを提案する。
論文 参考訳(メタデータ) (2024-11-27T23:58:03Z) - Learned Image Transmission with Hierarchical Variational Autoencoder [28.084648666081943]
画像伝送のための革新的階層型ジョイントソースチャネル符号化(HJSCC)フレームワークを提案する。
提案手法では,送信側のボトムアップパスとトップダウンパスの組み合わせを利用して,元の画像の複数の階層表現を自動回帰的に生成する。
提案手法は, 周波数歪み特性において既存のベースラインより優れ, チャネルノイズに対するロバスト性を維持している。
論文 参考訳(メタデータ) (2024-08-29T08:23:57Z) - Improving the Stability and Efficiency of Diffusion Models for Content Consistent Super-Resolution [18.71638301931374]
画像超解像 (SR) 結果の視覚的品質を高めるために, 予め訓練した潜伏拡散モデル (DM) の生成先行が大きな可能性を示唆している。
本稿では、生成SR過程を2段階に分割し、DMを画像構造再構築に、GANを細かな細部改善に使用することを提案する。
トレーニングを済ませると、提案手法、すなわちコンテンツ一貫性超解像(CCSR)は、推論段階における異なる拡散ステップの柔軟な利用を可能にする。
論文 参考訳(メタデータ) (2023-12-30T10:22:59Z) - DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。
画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。
MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-12-11T18:38:28Z) - High Perceptual Quality Wireless Image Delivery with Denoising Diffusion
Models [10.763194436114194]
深層学習を用いたジョイントソースチャネル符号化(DeepJSCC)によるノイズの多い無線チャネル上の画像伝送問題について検討する。
対象画像のレンジ・ヌル空間分解を利用した新しい手法を提案する。
再建画像の歪みと知覚的品質は,標準的なDeepJSCCや最先端の生成学習法と比較して有意に向上した。
論文 参考訳(メタデータ) (2023-09-27T16:30:59Z) - Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。
本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T03:08:28Z) - Denoising Diffusion Models for Plug-and-Play Image Restoration [135.6359475784627]
本稿では,従来のプラグアンドプレイ方式を拡散サンプリングフレームワークに統合したDiffPIRを提案する。
DiffPIRは、差別的なガウスのデノイザーに依存するプラグアンドプレイIR法と比較して、拡散モデルの生成能力を継承することが期待されている。
論文 参考訳(メタデータ) (2023-05-15T20:24:38Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。