論文の概要: Token Communication-Driven Multimodal Large Models in Resource-Constrained Multiuser Networks
- arxiv url: http://arxiv.org/abs/2505.07841v1
- Date: Tue, 06 May 2025 14:17:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.212577
- Title: Token Communication-Driven Multimodal Large Models in Resource-Constrained Multiuser Networks
- Title(参考訳): 資源制約型マルチユーザネットワークにおけるトークン通信駆動型マルチモーダル大モデル
- Authors: Junhe Zhang, Wanli Ni, Pengwei Wang, Dongyu Wang,
- Abstract要約: マルチモーダルの大型モデルは インテリジェントなアプリケーションを ワイヤレスエッジに展開する上で
これらの制約は、帯域幅、計算能力、および厳格なレイテンシ要件として表される。
本稿では,ユーザデバイスとエッジインフラストラクチャ間の分散的な拡散を促進するトークン通信パラダイムを提案する。
- 参考スコア(独自算出の注目度): 7.137830911253685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The proliferation of intelligent applications at the wireless edge, alongside the exponential growth of multimodal data, poses challenges for deploying multimodal large models (MLMs) in resource-constrained networks. These constraints manifest as limited bandwidth, computational capacity, and stringent latency requirements, particularly under low signal-to-noise ratio (SNR) conditions. To overcome these limitations, we propose a token communication paradigm that facilitates the decentralized deployment of MLMs across user devices and edge infrastructure (e.g., base stations). In this paradigm, task-relevant tokens are extracted from multimodal inputs and serve as the primary medium for communication between distributed model components. To align semantics and optimize transmission efficiency, we propose a dual-pronged approach: 1) We design a contrastive split fine-tuning method to project heterogeneous modalities into a shared feature space, enabling seamless interaction between model components while preserving modal-specific semantics. 2) We employ a lightweight compression technique to reduce the size of transmitted tokens, minimizing bandwidth consumption without sacrificing task-critical information. The proposed framework integrates collaborative fine-tuning of both the foundation model and multimodal transceivers, ensuring that token generation and utilization are tailored to specific downstream tasks. Simulation experiments conducted under different SNR conditions demonstrate that our method results in a $13.7\%$ improvement in test accuracy. Furthermore, our approach exhibits quicker convergence rates, even with reduced token lengths, highlighting the promise of token communication for facilitating more scalable and resilient MLM implementations in practical multiuser networks.
- Abstract(参考訳): 無線エッジにおけるインテリジェントなアプリケーションの普及は、マルチモーダルデータの指数的な成長とともに、リソース制約されたネットワークにマルチモーダル・大型モデル(MLM)をデプロイする上での課題を提起する。
これらの制約は、特に低信号対雑音比(SNR)条件下では、帯域幅、計算能力、および厳しいレイテンシ要件として表される。
これらの制限を克服するために,ユーザデバイスとエッジインフラストラクチャ(例えば基地局)間でのMLMの分散展開を容易にするトークン通信パラダイムを提案する。
このパラダイムでは、タスク関連トークンをマルチモーダル入力から抽出し、分散モデルコンポーネント間の通信のための主要な媒体として機能する。
セマンティクスを整合させ,伝送効率を最適化するために,2つのアプローチを提案する。
1) 不均一なモダリティを共有特徴空間に投影する対照的な分割微調整法を設計し,モーダル固有のセマンティクスを保ちながら,モデルコンポーネント間のシームレスな相互作用を可能にする。
2) タスククリティカルな情報を犠牲にすることなく, 送信トークンのサイズを小さくし, 帯域消費を最小限に抑えるために, 軽量圧縮技術を用いる。
提案フレームワークは,ファンデーションモデルとマルチモーダルトランスシーバーの両方を協調的に微調整することで,トークンの生成と利用が特定の下流タスクに合わせることを保証する。
異なるSNR条件下で行ったシミュレーション実験により, 試験精度が 13.7 % 向上したことを示す。
さらに,トークン長を削減した場合でも,より高速な収束率を示し,実用的なマルチユーザネットワークにおいて,よりスケーラブルでレジリエントなMLM実装を実現するためのトークン通信の約束を強調した。
関連論文リスト
- InfoMAE: Pair-Efficient Cross-Modal Alignment for Multimodal Time-Series Sensing Signals [9.648001493025204]
InfoMAEは、SSL設定下でのマルチモーダルペア効率の課題に取り組む、クロスモーダルアライメントフレームワークである。
下流のマルチモーダルタスクを60%以上向上させ、マルチモーダルペアリング効率を大幅に改善した。
また、単一タスクの精度を平均22%向上させる。
論文 参考訳(メタデータ) (2025-04-13T20:03:29Z) - Task-Oriented Feature Compression for Multimodal Understanding via Device-Edge Co-Inference [49.77734021302196]
本稿では,マルチモーダル理解のためのタスク指向特徴圧縮(TOFC)手法を提案する。
圧縮効率を向上させるために、視覚特徴の特性に基づいて複数のエントロピーモデルを適応的に選択する。
その結果,TOFCはデータ転送オーバヘッドの最大60%削減,システム遅延の50%削減を実現している。
論文 参考訳(メタデータ) (2025-03-17T08:37:22Z) - SIMAC: A Semantic-Driven Integrated Multimodal Sensing And Communication Framework [22.924064428134507]
単一モードセンシングは精度と能力の限界に直面し、通信システムとの疎結合実装によりレイテンシが増大する。
本稿では,これらの課題を克服するために,意味駆動型統合マルチモーダルセンシング・通信フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-11T01:04:42Z) - R-MTLLMF: Resilient Multi-Task Large Language Model Fusion at the Wireless Edge [78.26352952957909]
マルチタスク大言語モデル(MTLLM)は、ユーザが複数のタスクを効率的に処理するための特殊なモデルを要求する無線エッジにおける多くのアプリケーションにとって重要である。
タスクベクトルによるモデル融合の概念は、MDLLMを生成するための微調整パラメータを組み合わせるための効率的なアプローチとして登場した。
本稿では,最悪の逆攻撃を前提として,エッジユーザがタスクベクトルを介して協調的にMTLMを作成できる問題について検討する。
論文 参考訳(メタデータ) (2024-11-27T10:57:06Z) - FedMFS: Federated Multimodal Fusion Learning with Selective Modality Communication [11.254610576923204]
選択的モーダル通信を用いたFedMFS(Federated Multimodal Fusion Learning)を提案する。
鍵となる考え方は、各デバイスに対するモダリティ選択基準の導入であり、(i)Shapley値解析によって測定されたモダリティの影響を重み付けし、(ii)モダリティモデルサイズを通信オーバーヘッドの指標とする。
実世界のActionSenseデータセットの実験では、FedMFSが複数のベースラインに匹敵する精度を達成し、通信オーバーヘッドを4倍に削減できることを示した。
論文 参考訳(メタデータ) (2023-10-10T22:23:27Z) - Large AI Model Empowered Multimodal Semantic Communications [48.73159237649128]
本稿では,Large AI Model-based Multimodal SC (LAMMSC) フレームワークを提案する。
まず、条件付きマルチモーダルアライメント(MMA)を提案し、マルチモーダルデータと非モーダルデータ間の変換を可能にする。
次に、パーソナライズされたLLMベースの知識ベース(LKB)を提案し、ユーザがパーソナライズされたセマンティック抽出やリカバリを行うことができる。
最後に,CGE(Generative Adversarial Network-based Channel Estimation)を用いて,無線チャネルの状態情報を推定する。
論文 参考訳(メタデータ) (2023-09-03T19:24:34Z) - Low-Latency Federated Learning over Wireless Channels with Differential
Privacy [142.5983499872664]
フェデレートラーニング(FL)では、モデルトレーニングはクライアントに分散し、ローカルモデルは中央サーバによって集約される。
本稿では,各クライアントの差分プライバシ(DP)要件だけでなく,全体としてのトレーニング性能に制約された無線チャネル上でのFLトレーニング遅延を最小限に抑えることを目的とする。
論文 参考訳(メタデータ) (2021-06-20T13:51:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。