論文の概要: Task-Oriented Multimodal Token Transmission in Resource-Constrained Multiuser Networks
- arxiv url: http://arxiv.org/abs/2505.07841v2
- Date: Fri, 12 Sep 2025 08:58:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 14:04:02.961992
- Title: Task-Oriented Multimodal Token Transmission in Resource-Constrained Multiuser Networks
- Title(参考訳): 資源制約型マルチユーザネットワークにおけるタスク指向型マルチモーダルトークン伝送
- Authors: Junhe Zhang, Wanli Ni, Pengwei Wang, Dongyu Wang,
- Abstract要約: 本稿では,効率的なマルチモーダル情報融合と利用のためのタスク指向マルチモーダルトークン伝送方式を提案する。
モーダル間の整合性とタスク関連トークン伝送を改善するために,2段階のトレーニングアルゴリズムを設計する。
また、レイテンシと推論性能に対する重み付きサム最適化問題を定式化する。
- 参考スコア(独自算出の注目度): 19.42660454288912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the promising paradigm enabled by integrating semantic communication (SemCom) with multimodal large models (MLMs) for transmitting and utilizing multimodal data, efficiently fusing and exploiting cross-modal information still remain challenging. Moreover, widely adopted transformer-based architectures inevitably produce excessively long token embeddings for transmission, which result in higher bandwidth consumption, increased power usage, and greater latency, rendering them impractical in resource-constrained networks. In this letter, we propose a task-oriented multimodal token transmission scheme for efficient multimodal information fusion and utilization. To improve inter-modal consistency and task-relevant token transmission, we design a two-stage training algotithm which involves cross-modal alignment followed by task-oriented fine-tuning. Meanwhile, token compression is performed using a sliding window pooling operation to conserve limited communication resources. To balance the trade-off between latency reduction and performance degradation caused by compression, we formulate a weighted-sum optimization problem over latency and inference performance. We jointly optimizes bandwidth, power allocation, and token length across users by using an alternating optimization method. Simulation results demonstrate that the proposed algorithm outperforms the baseline under different bandwidth and power budgets. Moreover, the two-stage training algorithm achieves higher accuracy across various signal-to-noise ratios than the method without cross-modal alignment.
- Abstract(参考訳): セマンティック・コミュニケーション (SemCom) とマルチモーダル・大規模モデル (MLM) を統合してマルチモーダル・データの伝達と利用を可能にする有望なパラダイムにもかかわらず、クロスモーダル情報を効率的に融合・活用することは依然として困難である。
さらに、広く採用されているトランスフォーマーベースのアーキテクチャは、送信のための極端に長いトークン埋め込みを発生させ、それによって帯域幅の消費が増加し、電力消費が増加し、レイテンシが増大し、リソース制約のネットワークでは実行不可能となる。
本稿では,効率的なマルチモーダル情報融合・利用のためのタスク指向マルチモーダルトークン送信方式を提案する。
モーダル間の整合性とタスク関連トークン伝達を改善するため,クロスモーダルアライメントとタスク指向の微調整を含む2段階トレーニングアルゴリズムを設計した。
一方、スライディングウィンドウプーリング操作を用いてトークン圧縮を行い、限られた通信資源を保存する。
圧縮による遅延低減と性能劣化のトレードオフを解消するために,レイテンシと推論性能に対する重み付け最適化問題を定式化する。
我々は、交互最適化手法を用いて、ユーザ間での帯域幅、電力割り当て、トークン長を共同で最適化する。
シミュレーションの結果,提案アルゴリズムは,帯域幅や消費電力の異なるベースラインよりも優れていた。
さらに、この2段階学習アルゴリズムは、クロスモーダルアライメントのない手法よりも、様々な信号対雑音比で高い精度を実現する。
関連論文リスト
- FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [50.438552588818]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。
Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。
マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文 参考訳(メタデータ) (2025-07-07T04:09:45Z) - Token Communication in the Era of Large Models: An Information Bottleneck-Based Approach [55.861432910722186]
UniToComは、トークンを処理と無線通信の両方の基本的な単位として扱う統一トークン通信パラダイムである。
本稿では,重要な情報を保持するトークンの学習を容易にする生成情報ボトルネック(GenIB)の原理を提案する。
我々は、離散トークンと連続トークンの両方の処理を統合するために、因果変換器に基づくマルチモーダル言語モデル(MLLM)を受信機に採用する。
論文 参考訳(メタデータ) (2025-07-02T14:03:01Z) - A Transfer Learning Framework for Multilayer Networks via Model Averaging [8.27209166988677]
多層ネットワークにおけるリンク予測は、レコメンデーションシステムやタンパク質-タンパク質相互作用予測といったアプリケーションにおいて重要な課題である。
バイレベルモデル平均化手法を用いた多層ネットワークのための新しいトランスファー学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-14T11:32:31Z) - InfoMAE: Pair-Efficient Cross-Modal Alignment for Multimodal Time-Series Sensing Signals [9.648001493025204]
InfoMAEは、SSL設定下でのマルチモーダルペア効率の課題に取り組む、クロスモーダルアライメントフレームワークである。
下流のマルチモーダルタスクを60%以上向上させ、マルチモーダルペアリング効率を大幅に改善した。
また、単一タスクの精度を平均22%向上させる。
論文 参考訳(メタデータ) (2025-04-13T20:03:29Z) - Task-Oriented Feature Compression for Multimodal Understanding via Device-Edge Co-Inference [49.77734021302196]
本稿では,マルチモーダル理解のためのタスク指向特徴圧縮(TOFC)手法を提案する。
圧縮効率を向上させるために、視覚特徴の特性に基づいて複数のエントロピーモデルを適応的に選択する。
その結果,TOFCはデータ転送オーバヘッドの最大60%削減,システム遅延の50%削減を実現している。
論文 参考訳(メタデータ) (2025-03-17T08:37:22Z) - SIMAC: A Semantic-Driven Integrated Multimodal Sensing And Communication Framework [22.924064428134507]
単一モードセンシングは精度と能力の限界に直面し、通信システムとの疎結合実装によりレイテンシが増大する。
本稿では,これらの課題を克服するために,意味駆動型統合マルチモーダルセンシング・通信フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-11T01:04:42Z) - R-MTLLMF: Resilient Multi-Task Large Language Model Fusion at the Wireless Edge [78.26352952957909]
マルチタスク大言語モデル(MTLLM)は、ユーザが複数のタスクを効率的に処理するための特殊なモデルを要求する無線エッジにおける多くのアプリケーションにとって重要である。
タスクベクトルによるモデル融合の概念は、MDLLMを生成するための微調整パラメータを組み合わせるための効率的なアプローチとして登場した。
本稿では,最悪の逆攻撃を前提として,エッジユーザがタスクベクトルを介して協調的にMTLMを作成できる問題について検討する。
論文 参考訳(メタデータ) (2024-11-27T10:57:06Z) - FedMFS: Federated Multimodal Fusion Learning with Selective Modality Communication [11.254610576923204]
選択的モーダル通信を用いたFedMFS(Federated Multimodal Fusion Learning)を提案する。
鍵となる考え方は、各デバイスに対するモダリティ選択基準の導入であり、(i)Shapley値解析によって測定されたモダリティの影響を重み付けし、(ii)モダリティモデルサイズを通信オーバーヘッドの指標とする。
実世界のActionSenseデータセットの実験では、FedMFSが複数のベースラインに匹敵する精度を達成し、通信オーバーヘッドを4倍に削減できることを示した。
論文 参考訳(メタデータ) (2023-10-10T22:23:27Z) - Large AI Model Empowered Multimodal Semantic Communications [48.73159237649128]
本稿では,Large AI Model-based Multimodal SC (LAMMSC) フレームワークを提案する。
まず、条件付きマルチモーダルアライメント(MMA)を提案し、マルチモーダルデータと非モーダルデータ間の変換を可能にする。
次に、パーソナライズされたLLMベースの知識ベース(LKB)を提案し、ユーザがパーソナライズされたセマンティック抽出やリカバリを行うことができる。
最後に,CGE(Generative Adversarial Network-based Channel Estimation)を用いて,無線チャネルの状態情報を推定する。
論文 参考訳(メタデータ) (2023-09-03T19:24:34Z) - Low-Latency Federated Learning over Wireless Channels with Differential
Privacy [142.5983499872664]
フェデレートラーニング(FL)では、モデルトレーニングはクライアントに分散し、ローカルモデルは中央サーバによって集約される。
本稿では,各クライアントの差分プライバシ(DP)要件だけでなく,全体としてのトレーニング性能に制約された無線チャネル上でのFLトレーニング遅延を最小限に抑えることを目的とする。
論文 参考訳(メタデータ) (2021-06-20T13:51:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。