論文の概要: Diffusion-Aided Joint Source Channel Coding For High Realism Wireless Image Transmission
- arxiv url: http://arxiv.org/abs/2404.17736v1
- Date: Sat, 27 Apr 2024 00:12:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 19:30:48.530968
- Title: Diffusion-Aided Joint Source Channel Coding For High Realism Wireless Image Transmission
- Title(参考訳): 高臨場感無線画像伝送のための拡散支援ジョイントソースチャネル符号化
- Authors: Mingyu Yang, Bowen Liu, Boyang Wang, Hun-Seok Kim,
- Abstract要約: DiffJSCCは、事前訓練されたテキストと画像の拡散モデルを利用して、チャネルを介して送信される画像のリアリズムを強化する新しいフレームワークである。
提案手法は,従来の手法と,知覚的メトリクスに対する従来の深部JSCCアプローチを大きく上回っている。
- 参考スコア(独自算出の注目度): 24.372996233209854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning-based joint source-channel coding (deep JSCC) has been demonstrated as an effective approach for wireless image transmission. Nevertheless, current research has concentrated on minimizing a standard distortion metric such as Mean Squared Error (MSE), which does not necessarily improve the perceptual quality. To address this issue, we propose DiffJSCC, a novel framework that leverages pre-trained text-to-image diffusion models to enhance the realism of images transmitted over the channel. The proposed DiffJSCC utilizes prior deep JSCC frameworks to deliver an initial reconstructed image at the receiver. Then, the spatial and textual features are extracted from the initial reconstruction, which, together with the channel state information (e.g., signal-to-noise ratio, SNR), are passed to a control module to fine-tune the pre-trained Stable Diffusion model. Extensive experiments on the Kodak dataset reveal that our method significantly surpasses both conventional methods and prior deep JSCC approaches on perceptual metrics such as LPIPS and FID scores, especially with poor channel conditions and limited bandwidth. Notably, DiffJSCC can achieve highly realistic reconstructions for 768x512 pixel Kodak images with only 3072 symbols (<0.008 symbols per pixel) under 1dB SNR. Our code will be released in https://github.com/mingyuyng/DiffJSCC.
- Abstract(参考訳): 深層学習に基づくジョイントソースチャネル符号化(ディープJSCC)は,無線画像伝送に有効な手法として実証されている。
しかしながら、現在の研究は、知覚品質を必ずしも改善しないMean Squared Error (MSE)のような標準歪み尺度の最小化に集中している。
DiffJSCCは、事前訓練されたテキスト・画像拡散モデルを利用して、チャネル上で送信される画像のリアリズムを高める新しいフレームワークである。
提案したDiffJSCCは、以前のディープJSCCフレームワークを使用して、レシーバーで初期再構成されたイメージを提供する。
そして、初期再構成から空間的特徴とテキスト的特徴を抽出し、チャネル状態情報(例えば、信号対雑音比、SNR)と共に制御モジュールに渡して、予め訓練された安定拡散モデルを微調整する。
Kodakデータセットの広汎な実験により,LPIPSやFIDスコアなどの知覚的指標に対する従来手法と従来型の深いJSCCアプローチの両方をはるかに上回り,特にチャネル条件が悪く,帯域幅が限られていることが明らかとなった。
特に、DiffJSCCは1dB SNRの下で、3072のシンボル(<0.008のシンボル)しか持たない768x512ピクセルのKodak画像に対して、非常に現実的な再構成を行うことができる。
私たちのコードはhttps://github.com/mingyuyng/DiffJSCCでリリースされます。
関連論文リスト
- One Diffusion Step to Real-World Super-Resolution via Flow Trajectory Distillation [60.54811860967658]
FluxSRはフローマッチングモデルに基づく新しい一段階拡散リアルISRである。
まず,フロートラジェクトリ蒸留(FTD)を導入し,多段階のフローマッチングモデルを1段階のリアルISRに蒸留する。
第2に、画像リアリズムを改善し、生成画像の高周波アーティファクト問題に対処するために、テレビLPIPSを知覚的損失として提案する。
論文 参考訳(メタデータ) (2025-02-04T04:11:29Z) - MSF: Efficient Diffusion Model Via Multi-Scale Latent Factorize [27.749096921628457]
本稿では,階層的な視覚表現を生成するマルチスケール拡散フレームワークを提案する。
提案手法は,ImageNet 256x256ベンチマークにおいて2.2のFIDと255.4のISを実現し,ベースライン法と比較して計算コストを50%削減する。
論文 参考訳(メタデータ) (2025-01-23T03:18:23Z) - FaithDiff: Unleashing Diffusion Priors for Faithful Image Super-resolution [48.88184541515326]
本稿では,忠実な画像SRのための遅延拡散モデル(LDM)のパワーをフル活用するために,FithDiffというシンプルで効果的な手法を提案する。
高品質画像上で事前学習した拡散モデルを凍結する既存の拡散ベースSR法とは対照的に,有用な情報を特定し,忠実な構造を復元する前に拡散を解き放つことを提案する。
論文 参考訳(メタデータ) (2024-11-27T23:58:03Z) - Learned Image Transmission with Hierarchical Variational Autoencoder [28.084648666081943]
画像伝送のための革新的階層型ジョイントソースチャネル符号化(HJSCC)フレームワークを提案する。
提案手法では,送信側のボトムアップパスとトップダウンパスの組み合わせを利用して,元の画像の複数の階層表現を自動回帰的に生成する。
提案手法は, 周波数歪み特性において既存のベースラインより優れ, チャネルノイズに対するロバスト性を維持している。
論文 参考訳(メタデータ) (2024-08-29T08:23:57Z) - Improving the Stability and Efficiency of Diffusion Models for Content Consistent Super-Resolution [18.71638301931374]
画像超解像 (SR) 結果の視覚的品質を高めるために, 予め訓練した潜伏拡散モデル (DM) の生成先行が大きな可能性を示唆している。
本稿では、生成SR過程を2段階に分割し、DMを画像構造再構築に、GANを細かな細部改善に使用することを提案する。
トレーニングを済ませると、提案手法、すなわちコンテンツ一貫性超解像(CCSR)は、推論段階における異なる拡散ステップの柔軟な利用を可能にする。
論文 参考訳(メタデータ) (2023-12-30T10:22:59Z) - DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。
画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。
MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-12-11T18:38:28Z) - High Perceptual Quality Wireless Image Delivery with Denoising Diffusion
Models [10.763194436114194]
深層学習を用いたジョイントソースチャネル符号化(DeepJSCC)によるノイズの多い無線チャネル上の画像伝送問題について検討する。
対象画像のレンジ・ヌル空間分解を利用した新しい手法を提案する。
再建画像の歪みと知覚的品質は,標準的なDeepJSCCや最先端の生成学習法と比較して有意に向上した。
論文 参考訳(メタデータ) (2023-09-27T16:30:59Z) - Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。
本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T03:08:28Z) - Denoising Diffusion Models for Plug-and-Play Image Restoration [135.6359475784627]
本稿では,従来のプラグアンドプレイ方式を拡散サンプリングフレームワークに統合したDiffPIRを提案する。
DiffPIRは、差別的なガウスのデノイザーに依存するプラグアンドプレイIR法と比較して、拡散モデルの生成能力を継承することが期待されている。
論文 参考訳(メタデータ) (2023-05-15T20:24:38Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。