論文の概要: Multimodal LLM Integrated Semantic Communications for 6G Immersive Experiences
- arxiv url: http://arxiv.org/abs/2507.04621v1
- Date: Mon, 07 Jul 2025 02:42:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.258113
- Title: Multimodal LLM Integrated Semantic Communications for 6G Immersive Experiences
- Title(参考訳): マルチモーダルLDM統合セマンティックコミュニケーションによる6G没入型体験
- Authors: Yusong Zhang, Yuxuan Sun, Lei Guo, Wei Chen, Bo Ai, Deniz Gunduz,
- Abstract要約: 6Gネットワークは、拡張現実(AR)、仮想現実(VR)、ホログラフィック通信などの革命的な没入型コミュニケーション体験を約束する。
これらのアプリケーションは高次元マルチモーダルデータ伝送とインテリジェントデータ処理をリアルタイムに要求する。
本稿では,MLLM-SCと呼ばれる新しいマルチモーダル大言語モデル(MLLM)の統合セマンティックコミュニケーションフレームワークを提案する。
- 参考スコア(独自算出の注目度): 21.082428220672696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 6G networks promise revolutionary immersive communication experiences including augmented reality (AR), virtual reality (VR), and holographic communications. These applications demand high-dimensional multimodal data transmission and intelligent data processing in real-time, which is extremely challenging over resource-limited wireless communication systems. Moreover, a joint understanding of the environment, context, and user intent is essential to deliver task-relevant content effectively. This article presents a novel multimodal large language model (MLLM) integrated semantic communications framework, termed MLLM-SC, which fully leverages reasoning and generative capabilities of pre-trained foundation models for context-aware and task-oriented wireless communication. The MLLM-SC framework adopts a device-edge collaborative architecture. At the edge, MLLM-empowered semantic guidance module analyzes multimodal inputs, user intents, and channel conditions to generate importance-aware attention maps prioritizing semantically critical information. An importance-aware semantic encoder and a resource-adaptive semantic decoder are jointly designed and optimized, which can utilize the semantic guidance for adaptive bandwidth allocation and high-quality content reconstruction or generation. Extensive case studies on visual question answering for AR/VR applications and diffusion-driven image generation validate the effectiveness of MLLM-SC.
- Abstract(参考訳): 6Gネットワークは、拡張現実(AR)、仮想現実(VR)、ホログラフィック通信などの革命的な没入型コミュニケーション体験を約束する。
これらのアプリケーションは高次元マルチモーダルデータ伝送とインテリジェントデータ処理をリアルタイムに要求する。
さらに,タスク関連コンテンツを効果的に提供するためには,環境,コンテキスト,ユーザ意図を共同で理解することが不可欠である。
本稿では、文脈認識およびタスク指向無線通信のための事前学習基盤モデルの推論と生成機能を完全に活用した、MLLM-SCと呼ばれる新しい多モード大言語モデル(MLLM)の統合セマンティックコミュニケーションフレームワークを提案する。
MLLM-SCフレームワークはデバイスエッジコラボレーティブアーキテクチャを採用している。
エッジでは、MLLMを利用したセマンティックガイダンスモジュールがマルチモーダル入力、ユーザ意図、チャネル条件を分析し、セマンティッククリティカルな情報を優先した重要注意マップを生成する。
資源適応型セマンティック・デコーダと重要対応型セマンティック・エンコーダを共同設計・最適化し、アダプティブ・バンド幅割り当てと高品質なコンテンツ再構成・生成のためのセマンティック・ガイダンスを利用する。
AR/VR応用における視覚的質問応答と拡散駆動画像生成の広範囲なケーススタディにより,MLLM-SCの有効性が検証された。
関連論文リスト
- Multi-Task Semantic Communications via Large Models [42.42961176008125]
適応型モデル圧縮戦略とフェデレートされた分割微調整アプローチを含む,LAMベースのマルチタスクSemComアーキテクチャを提案する。
近年のローカルおよびグローバルな知識ベースを合成するために,検索拡張生成方式が実装されている。
論文 参考訳(メタデータ) (2025-03-28T00:57:34Z) - SIMAC: A Semantic-Driven Integrated Multimodal Sensing And Communication Framework [22.924064428134507]
単一モードセンシングは精度と能力の限界に直面し、通信システムとの疎結合実装によりレイテンシが増大する。
本稿では,これらの課題を克服するために,意味駆動型統合マルチモーダルセンシング・通信フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-11T01:04:42Z) - Take What You Need: Flexible Multi-Task Semantic Communications with Channel Adaptation [51.53221300103261]
本稿では,マスク付きオートエンコーダアーキテクチャに基づく,チャネル適応型・マルチタスク対応のセマンティックコミュニケーションフレームワークについて紹介する。
チャネル認識抽出器を用いて、リアルタイムのチャネル条件に応じて、関連情報を動的に選択する。
画像再構成や物体検出などのタスクにおける従来の手法と比較して,本手法の優れた性能を示す実験結果が得られた。
論文 参考訳(メタデータ) (2025-02-12T09:01:25Z) - Integrating Pre-Trained Language Model with Physical Layer Communications [19.20941153929975]
本稿では、物理層(PHY)通信機能と統合された実用的なオンデバイスAI通信フレームワークを提案する。
我々のフレームワークは、チャネルノイズによるエンドツーエンドトレーニングを取り入れ、レジリエンスを高め、ベクトル量子化変分オートエンコーダ(VQ-VAE)を効率よく堅牢な通信に組み込み、事前学習エンコーダ・デコーダ変換を用いて一般化能力を向上させる。
論文 参考訳(メタデータ) (2024-02-18T17:27:51Z) - Federated Multi-View Synthesizing for Metaverse [52.59476179535153]
メタバースは没入型エンターテイメント、教育、ビジネスアプリケーションを提供すると期待されている。
無線ネットワーク上のバーチャルリアリティ(VR)伝送は、データと計算集約である。
我々は,メタバースにおける無線コンテンツ配信のために,効率的な合成,記憶,通信資源を提供する,新しい多視点合成フレームワークを開発した。
論文 参考訳(メタデータ) (2023-12-18T13:51:56Z) - Large AI Model Empowered Multimodal Semantic Communications [48.73159237649128]
本稿では,Large AI Model-based Multimodal SC (LAMMSC) フレームワークを提案する。
まず、条件付きマルチモーダルアライメント(MMA)を提案し、マルチモーダルデータと非モーダルデータ間の変換を可能にする。
次に、パーソナライズされたLLMベースの知識ベース(LKB)を提案し、ユーザがパーソナライズされたセマンティック抽出やリカバリを行うことができる。
最後に,CGE(Generative Adversarial Network-based Channel Estimation)を用いて,無線チャネルの状態情報を推定する。
論文 参考訳(メタデータ) (2023-09-03T19:24:34Z) - Enabling the Wireless Metaverse via Semantic Multiverse Communication [82.47169682083806]
無線ネットワーク上のメタバースは、第6世代(6G)無線システムの新たなユースケースである。
メタバースを人間/機械エージェント固有のセマンティック・マルチバース(SM)に分解する新しいセマンティック・コミュニケーション・フレームワークを提案する。
各エージェントに格納されたSMは、セマンティックエンコーダとジェネレータから構成され、生成人工知能(AI)の最近の進歩を活用する。
論文 参考訳(メタデータ) (2022-12-13T21:21:07Z) - Communication-Efficient and Distributed Learning Over Wireless Networks:
Principles and Applications [55.65768284748698]
機械学習(ML)は、第5世代(5G)通信システムなどのための有望なイネーブルである。
本稿では、関連するコミュニケーションとMLの原則を概観し、選択したユースケースでコミュニケーション効率と分散学習フレームワークを提示することを目的とする。
論文 参考訳(メタデータ) (2020-08-06T12:37:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。