Fugu-MT 論文翻訳(概要): Diffusion-Aided Joint Source Channel Coding For High Realism Wireless Image Transmission

論文の概要: Diffusion-Aided Joint Source Channel Coding For High Realism Wireless Image Transmission

arxiv url: http://arxiv.org/abs/2404.17736v2
Date: Wed, 17 Jul 2024 05:33:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-19 03:51:44.107107
Title: Diffusion-Aided Joint Source Channel Coding For High Realism Wireless Image Transmission
Title（参考訳）: 高臨場感無線画像伝送のための拡散支援ジョイントソースチャネル符号化
Authors: Mingyu Yang, Bowen Liu, Boyang Wang, Hun-Seok Kim,
Abstract要約: DiffJSCCは条件拡散復調法により高現実性画像を生成する新しいフレームワークである。 768x512ピクセルのコダック画像を3072のシンボルで再現できる。
参考スコア（独自算出の注目度）: 24.372996233209854
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep learning-based joint source-channel coding (deep JSCC) has been demonstrated to be an effective approach for wireless image transmission. Nevertheless, most existing work adopts an autoencoder framework to optimize conventional criteria such as Mean Squared Error (MSE) and Structural Similarity Index (SSIM) which do not suffice to maintain the perceptual quality of reconstructed images. Such an issue is more prominent under stringent bandwidth constraints or low signal-to-noise ratio (SNR) conditions. To tackle this challenge, we propose DiffJSCC, a novel framework that leverages the prior knowledge of the pre-trained Statble Diffusion model to produce high-realism images via the conditional diffusion denoising process. Our DiffJSCC first extracts multimodal spatial and textual features from the noisy channel symbols in the generation phase. Then, it produces an initial reconstructed image as an intermediate representation to aid robust feature extraction and a stable training process. In the following diffusion step, DiffJSCC uses the derived multimodal features, together with channel state information such as the signal-to-noise ratio (SNR), as conditions to guide the denoising diffusion process, which converts the initial random noise to the final reconstruction. DiffJSCC employs a novel control module to fine-tune the Stable Diffusion model and adjust it to the multimodal conditions. Extensive experiments on diverse datasets reveal that our method significantly surpasses prior deep JSCC approaches on both perceptual metrics and downstream task performance, showcasing its ability to preserve the semantics of the original transmitted images. Notably, DiffJSCC can achieve highly realistic reconstructions for 768x512 pixel Kodak images with only 3072 symbols (<0.008 symbols per pixel) under 1dB SNR channels.
Abstract（参考訳）: 深層学習に基づくジョイントソースチャネル符号化(ディープJSCC)は,無線画像伝送に有効な手法であることが示されている。しかしながら、既存のほとんどの研究では、Mean Squared Error(MSE)やStructure similarity Index(SSIM)といった、再構成画像の知覚品質を維持するのに十分でない従来の基準を最適化するオートエンコーダフレームワークを採用している。このような問題は、厳密な帯域制限や低信号対雑音比(SNR)条件下でより顕著である。 DiffJSCCは,事前学習した統計拡散モデルの事前知識を利用して,条件付き拡散復調プロセスを通じて高現実性画像を生成する新しいフレームワークである。我々のDiffJSCCは、生成フェーズにおけるノイズチャネルシンボルから、まずマルチモーダルな空間的特徴とテキスト的特徴を抽出する。そして、ロバストな特徴抽出と安定した訓練プロセスを支援するために、中間表現として初期再構成画像を生成する。次の拡散ステップでは、DiffJSCCは、導出したマルチモーダル特徴と、信号対雑音比(SNR)などのチャネル状態情報とを、初期ランダムノイズを最終再構成に変換する復調拡散過程の導出条件として利用する。 DiffJSCCは、安定拡散モデルを微調整し、マルチモーダル条件に調整するために、新しい制御モジュールを使用している。多様なデータセットに対する広範囲な実験により,本手法は知覚的メトリクスと下流タスク性能の両方において,従来のJSCCアプローチをはるかに上回り,元の送信画像のセマンティクスを保存できることが判明した。特に、DiffJSCCは、768x512ピクセルのKodak画像に対して、1dB SNRチャネル下で3072のシンボル(<0.008のシンボル)しか持たない非常に現実的な再構成を行うことができる。

関連論文リスト

FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [63.87313550399871]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。 PSTは、画像基礎モデルと潜在空間アライメントによるクロスモーダルな知識伝達を確立する。 FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
論文参考訳（メタデータ） (2025-03-25T15:04:53Z)
SING: Semantic Image Communications using Null-Space and INN-Guided Diffusion Models [52.40011613324083]
近年, 無線画像伝送において, 共用音源チャネル符号化システム (DeepJSCC) が顕著な性能を発揮している。既存の手法では、送信された画像とレシーバーの再構成されたバージョンとの間の歪みを最小限に抑えることに重点を置いており、しばしば知覚的品質を見落としている。逆問題として,破損した再構成画像から高品質な画像の復元を定式化する新しいフレームワークであるSINGを提案する。
論文参考訳（メタデータ） (2025-03-16T12:32:11Z)
MSF: Efficient Diffusion Model Via Multi-Scale Latent Factorize [18.73205699076486]
マルチスケールの潜在因数分解を利用した拡散フレームワークを提案する。我々のフレームワークは、事前訓練された変分オートエンコーダから遅延する特徴を低周波ベース信号に分解する。提案アーキテクチャは,残差学習段階におけるサンプリングステップの削減を容易にする。
論文参考訳（メタデータ） (2025-01-23T03:18:23Z)
FaithDiff: Unleashing Diffusion Priors for Faithful Image Super-resolution [48.88184541515326]
本稿では,忠実な画像SRのための遅延拡散モデル(LDM)のパワーをフル活用するために,FithDiffというシンプルで効果的な手法を提案する。高品質画像上で事前学習した拡散モデルを凍結する既存の拡散ベースSR法とは対照的に,有用な情報を特定し,忠実な構造を復元する前に拡散を解き放つことを提案する。
論文参考訳（メタデータ） (2024-11-27T23:58:03Z)
Diffusion-based Extreme Image Compression with Compressed Feature Initialization [29.277211609920155]
Relay Residual Diffusion Extreme Image Compression (RDEIC)を提案する。まず, 純雑音ではなく, 付加雑音を付加した画像の圧縮潜時特徴を出発点として, 復調過程の不要な初期段階を除去する。提案手法は,最先端の視覚的品質を達成し,既存の拡散に基づく極端画像圧縮手法よりも忠実度と効率性が優れていることを示す。
論文参考訳（メタデータ） (2024-10-03T16:24:20Z)
Learned Image Transmission with Hierarchical Variational Autoencoder [28.084648666081943]
画像伝送のための革新的階層型ジョイントソースチャネル符号化(HJSCC)フレームワークを提案する。提案手法では,送信側のボトムアップパスとトップダウンパスの組み合わせを利用して,元の画像の複数の階層表現を自動回帰的に生成する。提案手法は, 周波数歪み特性において既存のベースラインより優れ, チャネルノイズに対するロバスト性を維持している。
論文参考訳（メタデータ） (2024-08-29T08:23:57Z)
Diffusion-Driven Semantic Communication for Generative Models with Bandwidth Constraints [27.049330099874396]
本稿では,帯域制限付き生成モデルのための,高度なVAEベースの圧縮を用いた拡散駆動型セマンティック通信フレームワークを提案する。実験の結果,ピーク信号対雑音比 (PSNR) などの画素レベルの指標と,LPIPS (Learning Perceptual Image patch similarity) のような意味的指標が大幅に改善された。
論文参考訳（メタデータ） (2024-07-26T02:34:25Z)
Improving the Stability and Efficiency of Diffusion Models for Content Consistent Super-Resolution [18.71638301931374]
画像超解像 (SR) 結果の視覚的品質を高めるために, 予め訓練した潜伏拡散モデル (DM) の生成先行が大きな可能性を示唆している。本稿では、生成SR過程を2段階に分割し、DMを画像構造再構築に、GANを細かな細部改善に使用することを提案する。トレーニングを済ませると、提案手法、すなわちコンテンツ一貫性超解像(CCSR)は、推論段階における異なる拡散ステップの柔軟な利用を可能にする。
論文参考訳（メタデータ） (2023-12-30T10:22:59Z)
DGNet: Dynamic Gradient-Guided Network for Water-Related Optics Image Enhancement [77.0360085530701]
水中画像強調(UIE)は、水中環境によって引き起こされる複雑な劣化のために難しい課題である。従来の手法では、劣化過程を理想化し、中音や物体の動きが画像の特徴の分布に与える影響を無視することが多い。提案手法では,予測画像を用いて疑似ラベルを動的に更新し,動的勾配を加えてネットワークの勾配空間を最適化する。
論文参考訳（メタデータ） (2023-12-12T06:07:21Z)
DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。 MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2023-12-11T18:38:28Z)
High Perceptual Quality Wireless Image Delivery with Denoising Diffusion Models [10.763194436114194]
深層学習を用いたジョイントソースチャネル符号化(DeepJSCC)によるノイズの多い無線チャネル上の画像伝送問題について検討する。対象画像のレンジ・ヌル空間分解を利用した新しい手法を提案する。再建画像の歪みと知覚的品質は,標準的なDeepJSCCや最先端の生成学習法と比較して有意に向上した。
論文参考訳（メタデータ） (2023-09-27T16:30:59Z)
Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文参考訳（メタデータ） (2023-06-01T03:08:28Z)
Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。本稿では,階層型統合拡散モデル(HI-Diff)を提案する。人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文参考訳（メタデータ） (2023-05-22T12:18:20Z)
Denoising Diffusion Models for Plug-and-Play Image Restoration [135.6359475784627]
本稿では,従来のプラグアンドプレイ方式を拡散サンプリングフレームワークに統合したDiffPIRを提案する。 DiffPIRは、差別的なガウスのデノイザーに依存するプラグアンドプレイIR法と比較して、拡散モデルの生成能力を継承することが期待されている。
論文参考訳（メタデータ） (2023-05-15T20:24:38Z)
Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文参考訳（メタデータ） (2022-06-30T18:31:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。