論文の概要: Diffusion-Aided Joint Source Channel Coding For High Realism Wireless Image Transmission
- arxiv url: http://arxiv.org/abs/2404.17736v1
- Date: Sat, 27 Apr 2024 00:12:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-04-30 19:30:48.530968
- Title: Diffusion-Aided Joint Source Channel Coding For High Realism Wireless Image Transmission
- Title(参考訳): 高臨場感無線画像伝送のための拡散支援ジョイントソースチャネル符号化
- Authors: Mingyu Yang, Bowen Liu, Boyang Wang, Hun-Seok Kim,
- Abstract要約: DiffJSCCは、事前訓練されたテキストと画像の拡散モデルを利用して、チャネルを介して送信される画像のリアリズムを強化する新しいフレームワークである。
提案手法は,従来の手法と,知覚的メトリクスに対する従来の深部JSCCアプローチを大きく上回っている。
- 参考スコア(独自算出の注目度): 24.372996233209854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning-based joint source-channel coding (deep JSCC) has been demonstrated as an effective approach for wireless image transmission. Nevertheless, current research has concentrated on minimizing a standard distortion metric such as Mean Squared Error (MSE), which does not necessarily improve the perceptual quality. To address this issue, we propose DiffJSCC, a novel framework that leverages pre-trained text-to-image diffusion models to enhance the realism of images transmitted over the channel. The proposed DiffJSCC utilizes prior deep JSCC frameworks to deliver an initial reconstructed image at the receiver. Then, the spatial and textual features are extracted from the initial reconstruction, which, together with the channel state information (e.g., signal-to-noise ratio, SNR), are passed to a control module to fine-tune the pre-trained Stable Diffusion model. Extensive experiments on the Kodak dataset reveal that our method significantly surpasses both conventional methods and prior deep JSCC approaches on perceptual metrics such as LPIPS and FID scores, especially with poor channel conditions and limited bandwidth. Notably, DiffJSCC can achieve highly realistic reconstructions for 768x512 pixel Kodak images with only 3072 symbols (<0.008 symbols per pixel) under 1dB SNR. Our code will be released in https://github.com/mingyuyng/DiffJSCC.
- Abstract(参考訳): 深層学習に基づくジョイントソースチャネル符号化(ディープJSCC)は,無線画像伝送に有効な手法として実証されている。
しかしながら、現在の研究は、知覚品質を必ずしも改善しないMean Squared Error (MSE)のような標準歪み尺度の最小化に集中している。
DiffJSCCは、事前訓練されたテキスト・画像拡散モデルを利用して、チャネル上で送信される画像のリアリズムを高める新しいフレームワークである。
提案したDiffJSCCは、以前のディープJSCCフレームワークを使用して、レシーバーで初期再構成されたイメージを提供する。
そして、初期再構成から空間的特徴とテキスト的特徴を抽出し、チャネル状態情報(例えば、信号対雑音比、SNR)と共に制御モジュールに渡して、予め訓練された安定拡散モデルを微調整する。
Kodakデータセットの広汎な実験により,LPIPSやFIDスコアなどの知覚的指標に対する従来手法と従来型の深いJSCCアプローチの両方をはるかに上回り,特にチャネル条件が悪く,帯域幅が限られていることが明らかとなった。
特に、DiffJSCCは1dB SNRの下で、3072のシンボル(<0.008のシンボル)しか持たない768x512ピクセルのKodak画像に対して、非常に現実的な再構成を行うことができる。
私たちのコードはhttps://github.com/mingyuyng/DiffJSCCでリリースされます。
関連論文リスト
- FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [63.87313550399871]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基礎モデルと潜在空間アライメントによるクロスモーダルな知識伝達を確立する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - SING: Semantic Image Communications using Null-Space and INN-Guided Diffusion Models [52.40011613324083]
近年, 無線画像伝送において, 共用音源チャネル符号化システム (DeepJSCC) が顕著な性能を発揮している。
既存の手法では、送信された画像とレシーバーの再構成されたバージョンとの間の歪みを最小限に抑えることに重点を置いており、しばしば知覚的品質を見落としている。
逆問題として,破損した再構成画像から高品質な画像の復元を定式化する新しいフレームワークであるSINGを提案する。
論文 参考訳(メタデータ) (2025-03-16T12:32:11Z) - FaithDiff: Unleashing Diffusion Priors for Faithful Image Super-resolution [48.88184541515326]
本稿では,忠実な画像SRのための遅延拡散モデル(LDM)のパワーをフル活用するために,FithDiffというシンプルで効果的な手法を提案する。
高品質画像上で事前学習した拡散モデルを凍結する既存の拡散ベースSR法とは対照的に,有用な情報を特定し,忠実な構造を復元する前に拡散を解き放つことを提案する。
論文 参考訳(メタデータ) (2024-11-27T23:58:03Z) - Diffusion-based Extreme Image Compression with Compressed Feature Initialization [29.277211609920155]
Relay Residual Diffusion Extreme Image Compression (RDEIC)を提案する。
まず, 純雑音ではなく, 付加雑音を付加した画像の圧縮潜時特徴を出発点として, 復調過程の不要な初期段階を除去する。
提案手法は,最先端の視覚的品質を達成し,既存の拡散に基づく極端画像圧縮手法よりも忠実度と効率性が優れていることを示す。
論文 参考訳(メタデータ) (2024-10-03T16:24:20Z) - Learned Image Transmission with Hierarchical Variational Autoencoder [28.084648666081943]
画像伝送のための革新的階層型ジョイントソースチャネル符号化(HJSCC)フレームワークを提案する。
提案手法では,送信側のボトムアップパスとトップダウンパスの組み合わせを利用して,元の画像の複数の階層表現を自動回帰的に生成する。
提案手法は, 周波数歪み特性において既存のベースラインより優れ, チャネルノイズに対するロバスト性を維持している。
論文 参考訳(メタデータ) (2024-08-29T08:23:57Z) - Diffusion-Driven Semantic Communication for Generative Models with Bandwidth Constraints [27.049330099874396]
本稿では,帯域制限付き生成モデルのための,高度なVAEベースの圧縮を用いた拡散駆動型セマンティック通信フレームワークを提案する。
実験の結果,ピーク信号対雑音比 (PSNR) などの画素レベルの指標と,LPIPS (Learning Perceptual Image patch similarity) のような意味的指標が大幅に改善された。
論文 参考訳(メタデータ) (2024-07-26T02:34:25Z) - Improving the Stability and Efficiency of Diffusion Models for Content Consistent Super-Resolution [18.71638301931374]
画像超解像 (SR) 結果の視覚的品質を高めるために, 予め訓練した潜伏拡散モデル (DM) の生成先行が大きな可能性を示唆している。
本稿では、生成SR過程を2段階に分割し、DMを画像構造再構築に、GANを細かな細部改善に使用することを提案する。
トレーニングを済ませると、提案手法、すなわちコンテンツ一貫性超解像(CCSR)は、推論段階における異なる拡散ステップの柔軟な利用を可能にする。
論文 参考訳(メタデータ) (2023-12-30T10:22:59Z) - DGNet: Dynamic Gradient-Guided Network for Water-Related Optics Image
Enhancement [77.0360085530701]
水中画像強調(UIE)は、水中環境によって引き起こされる複雑な劣化のために難しい課題である。
従来の手法では、劣化過程を理想化し、中音や物体の動きが画像の特徴の分布に与える影響を無視することが多い。
提案手法では,予測画像を用いて疑似ラベルを動的に更新し,動的勾配を加えてネットワークの勾配空間を最適化する。
論文 参考訳(メタデータ) (2023-12-12T06:07:21Z) - DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。
画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。
MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-12-11T18:38:28Z) - High Perceptual Quality Wireless Image Delivery with Denoising Diffusion
Models [10.763194436114194]
深層学習を用いたジョイントソースチャネル符号化(DeepJSCC)によるノイズの多い無線チャネル上の画像伝送問題について検討する。
対象画像のレンジ・ヌル空間分解を利用した新しい手法を提案する。
再建画像の歪みと知覚的品質は,標準的なDeepJSCCや最先端の生成学習法と比較して有意に向上した。
論文 参考訳(メタデータ) (2023-09-27T16:30:59Z) - Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。
本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T03:08:28Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Denoising Diffusion Models for Plug-and-Play Image Restoration [135.6359475784627]
本稿では,従来のプラグアンドプレイ方式を拡散サンプリングフレームワークに統合したDiffPIRを提案する。
DiffPIRは、差別的なガウスのデノイザーに依存するプラグアンドプレイIR法と比較して、拡散モデルの生成能力を継承することが期待されている。
論文 参考訳(メタデータ) (2023-05-15T20:24:38Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。