論文の概要: Multimodal generative semantic communication based on latent diffusion model
- arxiv url: http://arxiv.org/abs/2408.05455v1
- Date: Sat, 10 Aug 2024 06:23:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 18:51:22.717507
- Title: Multimodal generative semantic communication based on latent diffusion model
- Title(参考訳): 潜在拡散モデルに基づくマルチモーダル生成意味コミュニケーション
- Authors: Weiqi Fu, Lianming Xu, Xin Wu, Haoyang Wei, Li Wang,
- Abstract要約: 本稿では,mm-GESCOというマルチモーダル・ジェネリック・セマンティック・コミュニケーション・フレームワークを提案する。
このフレームワークは、可視および赤外線モダル画像データのストリームを取り込み、融合したセマンティックセグメンテーションマップを生成して送信する。
受信終了時に、このフレームワークはセマンティックマップに基づいて、元のマルチモーダルイメージを再構築することができる。
- 参考スコア(独自算出の注目度): 13.035207938169844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In emergencies, the ability to quickly and accurately gather environmental data and command information, and to make timely decisions, is particularly critical. Traditional semantic communication frameworks, primarily based on a single modality, are susceptible to complex environments and lighting conditions, thereby limiting decision accuracy. To this end, this paper introduces a multimodal generative semantic communication framework named mm-GESCO. The framework ingests streams of visible and infrared modal image data, generates fused semantic segmentation maps, and transmits them using a combination of one-hot encoding and zlib compression techniques to enhance data transmission efficiency. At the receiving end, the framework can reconstruct the original multimodal images based on the semantic maps. Additionally, a latent diffusion model based on contrastive learning is designed to align different modal data within the latent space, allowing mm-GESCO to reconstruct latent features of any modality presented at the input. Experimental results demonstrate that mm-GESCO achieves a compression ratio of up to 200 times, surpassing the performance of existing semantic communication frameworks and exhibiting excellent performance in downstream tasks such as object classification and detection.
- Abstract(参考訳): 緊急時には、環境データや指令情報を迅速かつ正確に収集し、タイムリーな意思決定を行う能力が特に重要である。
従来の意味コミュニケーションフレームワークは、主に単一のモダリティに基づいており、複雑な環境や照明条件に影響を受けやすいため、決定精度が制限される。
そこで本研究では,mm-GESCOというマルチモーダル・ジェネリック・セマンティック・コミュニケーション・フレームワークを提案する。
このフレームワークは、可視および赤外線モダル画像データのストリームを取り込み、融合セマンティックセグメンテーションマップを生成し、それをワンホット符号化とzlib圧縮技術を組み合わせて送信し、データ伝送効率を向上させる。
受信終了時に、このフレームワークはセマンティックマップに基づいて、元のマルチモーダルイメージを再構築することができる。
さらに、回帰学習に基づく潜伏拡散モデルは、潜伏空間内で異なるモードデータを整列するように設計されており、mm-GESCOは入力に現れる任意のモードの潜伏特徴を再構成することができる。
実験の結果,mm-GESCOは200倍の圧縮比を達成し,既存のセマンティック通信フレームワークの性能を上回り,オブジェクト分類や検出などの下流タスクにおいて優れた性能を示すことがわかった。
関連論文リスト
- Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。
MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。
我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文 参考訳(メタデータ) (2024-10-29T03:49:40Z) - Enhancing Label-efficient Medical Image Segmentation with Text-guided Diffusion Models [5.865983529245793]
TextDiffは、安価な医療用テキストアノテーションを通じて意味表現を改善する。
その結果,TextDiffは,少数のトレーニングサンプルのみで,最先端のマルチモーダルセグメンテーション手法よりもはるかに優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-07T10:21:08Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - FedDiff: Diffusion Model Driven Federated Learning for Multi-Modal and
Multi-Clients [32.59184269562571]
我々はFedDiffと呼ばれる多モード協調拡散学習フレームワークを提案する。
本フレームワークは,2つのモーダルデータをエンコーダの別々の分岐に入力するデュアルブランチ拡散モデル特徴抽出設定を確立する。
複数のクライアント間のプライベートかつ効率的なコミュニケーションの課題を考慮し、拡散モデルを連合学習コミュニケーション構造に組み込む。
論文 参考訳(メタデータ) (2023-11-16T02:29:37Z) - FOCAL: Contrastive Learning for Multimodal Time-Series Sensing Signals
in Factorized Orthogonal Latent Space [7.324708513042455]
本稿では,マルチモーダル時系列センシング信号から包括的特徴を抽出する,FOCALと呼ばれる新しいコントラスト学習フレームワークを提案する。
ダウンストリームタスクにおける最先端のベースラインを、明確なマージンで一貫して上回る。
論文 参考訳(メタデータ) (2023-10-30T22:55:29Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - Communication-Efficient Framework for Distributed Image Semantic
Wireless Transmission [68.69108124451263]
IoTデバイスを用いたマルチタスク分散画像伝送のためのFederated Learning-based semantic communication (FLSC)フレームワーク。
各リンクは階層型視覚変換器(HVT)ベースの抽出器とタスク適応トランスレータで構成される。
チャネル状態情報に基づく多重出力多重出力伝送モジュール。
論文 参考訳(メタデータ) (2023-08-07T16:32:14Z) - Generative Semantic Communication: Diffusion Models Beyond Bit Recovery [19.088596386865106]
セマンティックコミュニケーションのための新しい生成拡散誘導フレームワークを提案する。
我々は,高度に圧縮された意味情報のみを送信することで帯域幅を削減した。
以上の結果から,非常にノイズの多い条件下でも,物体,位置,深さが認識可能であることが明らかとなった。
論文 参考訳(メタデータ) (2023-06-07T10:36:36Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。