論文の概要: Multi-Modal Semantic Communication
- arxiv url: http://arxiv.org/abs/2512.15691v1
- Date: Wed, 17 Dec 2025 18:47:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:27.109429
- Title: Multi-Modal Semantic Communication
- Title(参考訳): マルチモーダルセマンティック通信
- Authors: Matin Mortaheb, Erciyes Karakaya, Sennur Ulukus,
- Abstract要約: 本稿では,テキストベースのユーザクエリを統合して情報抽出プロセスをガイドする,新しいマルチモーダルセマンティックコミュニケーションフレームワークを提案する。
提案システムでは,視覚的特徴を言語埋め込みと融合させてソフトな関連度スコアを生成する,モーダルなアテンション機構を採用している。
受信機では、パッチを再構築して組み合わせてタスククリティカル情報を保存する。
- 参考スコア(独自算出の注目度): 39.55262791529245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic communication aims to transmit information most relevant to a task rather than raw data, offering significant gains in communication efficiency for applications such as telepresence, augmented reality, and remote sensing. Recent transformer-based approaches have used self-attention maps to identify informative regions within images, but they often struggle in complex scenes with multiple objects, where self-attention lacks explicit task guidance. To address this, we propose a novel Multi-Modal Semantic Communication framework that integrates text-based user queries to guide the information extraction process. Our proposed system employs a cross-modal attention mechanism that fuses visual features with language embeddings to produce soft relevance scores over the visual data. Based on these scores and the instantaneous channel bandwidth, we use an algorithm to transmit image patches at adaptive resolutions using independently trained encoder-decoder pairs, with total bitrate matching the channel capacity. At the receiver, the patches are reconstructed and combined to preserve task-critical information. This flexible and goal-driven design enables efficient semantic communication in complex and bandwidth-constrained environments.
- Abstract(参考訳): セマンティック通信は、テレプレゼンス、拡張現実、リモートセンシングなどのアプリケーションにおいて、生データよりもタスクに最も関係のある情報を伝達することを目的としている。
最近のトランスフォーマーベースのアプローチでは、イメージ内の情報領域を特定するために自己注意マップを使用しているが、複数のオブジェクトを持つ複雑なシーンでは、自己注意が明確なタスクガイダンスを欠いている場合が多い。
そこで本稿では,テキストベースのユーザクエリを統合して情報抽出プロセスをガイドする,新しいマルチモーダルセマンティックコミュニケーションフレームワークを提案する。
提案システムでは,視覚的特徴を言語埋め込みと融合させ,視覚データに対するソフトな関連度スコアを生成する。
これらのスコアと瞬時チャネル帯域幅に基づいて、独立に訓練されたエンコーダとデコーダのペアを用いて、適応解像度で画像パッチを送信し、チャネル容量と総ビットレートを一致させるアルゴリズムを用いる。
受信機では、パッチを再構成して組み合わせてタスククリティカル情報を保存する。
このフレキシブルで目標駆動型設計は、複雑で帯域幅に制約のある環境での効率的なセマンティックコミュニケーションを可能にする。
関連論文リスト
- Referring Remote Sensing Image Segmentation with Cross-view Semantics Interaction Network [65.01521002836611]
本稿では,これらの制約を解決するために,並列で統一されたセグメンテーション・フレームワークであるクロスビューセマンティック・インタラクション・ネットワーク(CSINet)を提案する。
関心の対象を観察する際の人間の行動によって動機づけられたネットワークは、遠隔および近距離からの視覚的手がかりを編成し、相乗的予測を行う。
すべてのエンコーディングステージでは、Cross-View Window-attention Module(CVWin)を使用して、グローバルおよびローカルセマンティクスをクローズビューおよびリモートビューブランチ機能に補完する。
論文 参考訳(メタデータ) (2025-08-02T11:57:56Z) - Task-Adaptive Semantic Communications with Controllable Diffusion-based Data Regeneration [45.55410059471241]
次世代ネットワークは、ビットワイズデータ配信を、帯域幅効率のための意味を伝達する意味にシフトする。
本研究では,拡散モデルに基づくタスク適応型セマンティックコミュニケーションフレームワークを提案する。
テスト結果は,タスク関連情報を意味コミュニケーションに適応的に保存する手法の有効性を示す。
論文 参考訳(メタデータ) (2025-05-12T18:23:53Z) - Take What You Need: Flexible Multi-Task Semantic Communications with Channel Adaptation [51.53221300103261]
本稿では,マスク付きオートエンコーダアーキテクチャに基づく,チャネル適応型・マルチタスク対応のセマンティックコミュニケーションフレームワークについて紹介する。
チャネル認識抽出器を用いて、リアルタイムのチャネル条件に応じて、関連情報を動的に選択する。
画像再構成や物体検出などのタスクにおける従来の手法と比較して,本手法の優れた性能を示す実験結果が得られた。
論文 参考訳(メタデータ) (2025-02-12T09:01:25Z) - Efficient Semantic Communication Through Transformer-Aided Compression [31.285983939625098]
セマンティックコミュニケーションのためのチャネル対応適応フレームワークを提案する。
視覚変換器を用いて、パッチの意味的内容の尺度として注意マスクを解釈する。
本手法は,エンコード解像度をコンテンツ関連性に適応させることで通信効率を向上させる。
論文 参考訳(メタデータ) (2024-12-02T18:57:28Z) - Toward Real-Time Edge AI: Model-Agnostic Task-Oriented Communication with Visual Feature Alignment [23.796344455232227]
タスク指向通信はエッジ推論システムの通信効率を向上させるための有望なアプローチを示す。
リアルタイムアプリケーションは、未完成のカバレッジやエッジサーバの潜在的な誤動作など、現実的な課題に直面している。
本研究では,多様なシステム間で共有アンカーデータを利用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-01T15:52:05Z) - Transformer-Aided Semantic Communications [28.63893944806149]
我々は、入力画像の圧縮とコンパクトな表現のために、視覚変換器を用いる。
変圧器固有のアテンション機構を用いることで、アテンションマスクを作成する。
提案手法の有効性をTinyImageNetデータセットを用いて評価した。
論文 参考訳(メタデータ) (2024-05-02T17:50:53Z) - Communication-Efficient Framework for Distributed Image Semantic
Wireless Transmission [68.69108124451263]
IoTデバイスを用いたマルチタスク分散画像伝送のためのFederated Learning-based semantic communication (FLSC)フレームワーク。
各リンクは階層型視覚変換器(HVT)ベースの抽出器とタスク適応トランスレータで構成される。
チャネル状態情報に基づく多重出力多重出力伝送モジュール。
論文 参考訳(メタデータ) (2023-08-07T16:32:14Z) - Semantic-Native Communication: A Simplicial Complex Perspective [50.099494681671224]
トポロジカル空間の観点から意味コミュニケーションを研究する。
送信機はまずデータを$k$の単純複素数にマッピングし、その高次相関を学習する。
受信機は構造を復号し、行方不明または歪んだデータを推測する。
論文 参考訳(メタデータ) (2022-10-30T22:33:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。