Fugu-MT 論文翻訳(概要): Task-Oriented Multimodal Token Transmission in Resource-Constrained Multiuser Networks

論文の概要: Task-Oriented Multimodal Token Transmission in Resource-Constrained Multiuser Networks

arxiv url: http://arxiv.org/abs/2505.07841v3
Date: Mon, 03 Nov 2025 13:36:27 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-04 20:19:58.396171
Title: Task-Oriented Multimodal Token Transmission in Resource-Constrained Multiuser Networks
Title（参考訳）: 資源制約型マルチユーザネットワークにおけるタスク指向型マルチモーダルトークン伝送
Authors: Junhe Zhang, Wanli Ni, Pengwei Wang, Dongyu Wang,
Abstract要約: 本稿では,効率的なマルチモーダル情報融合と利用のためのタスク指向マルチモーダルトークン伝送方式を提案する。トークン伝送の効率を向上させるため,クロスモーダルアライメントやタスク指向微調整を含む2段階トレーニングアルゴリズムを設計した。我々は、交互最適化手法を用いて、ユーザ間での帯域幅、電力割り当て、トークン長を共同で最適化する。
参考スコア（独自算出の注目度）: 19.42660454288912
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the emergence of large model-based agents, widely adopted transformer-based architectures inevitably produce excessively long token embeddings for transmission, which may result in high bandwidth overhead, increased power consumption and latency. In this letter, we propose a task-oriented multimodal token transmission scheme for efficient multimodal information fusion and utilization. To improve the efficiency of token transmission, we design a two-stage training algotithm, including cross-modal alignment and task-oriented fine-tuning, for large model-based token communication. Meanwhile, token compression is performed using a sliding window pooling operation to save communication resources. To balance the trade-off between latency and model performance caused by compression, we formulate a weighted-sum optimization problem over latency and validation loss. We jointly optimizes bandwidth, power allocation, and token length across users by using an alternating optimization method. Simulation results demonstrate that the proposed algorithm outperforms the baseline under different bandwidth and power budgets. Moreover, the two-stage training algorithm achieves higher accuracy across various signal-to-noise ratios than the method without cross-modal alignment.
Abstract（参考訳）: 大規模なモデルベースエージェントが出現すると、トランスフォーマーベースのアーキテクチャは必然的に非常に長いトークン埋め込みを生成し、高い帯域幅のオーバーヘッド、電力消費の増加、遅延をもたらす可能性がある。本稿では,効率的なマルチモーダル情報融合・利用のためのタスク指向マルチモーダルトークン送信方式を提案する。トークン伝送の効率を向上させるため,大規模なモデルベーストークン通信のためのクロスモーダルアライメントとタスク指向微調整を含む2段階トレーニングアルゴリズムを設計した。一方、スライディングウィンドウプーリング操作を用いてトークン圧縮を行い、通信資源を節約する。圧縮によるレイテンシとモデル性能のトレードオフのバランスをとるために、レイテンシとバリデーション損失に対する重み付けの最適化問題を定式化する。我々は、交互最適化手法を用いて、ユーザ間での帯域幅、電力割り当て、トークン長を共同で最適化する。シミュレーションの結果,提案アルゴリズムは,帯域幅や消費電力の異なるベースラインよりも優れていた。さらに、この2段階学習アルゴリズムは、クロスモーダルアライメントのない手法よりも、様々な信号対雑音比で高い精度を実現する。

関連論文リスト

Orchestrating Multimodal DNN Workloads in Wireless Neural Processing [57.510786937781866]
エッジ推論では、無線リソース割り当てとアクセラレータディープ・ニューラル・コンピューティング(DNN)のスケジューリングはまだエンドツーエンドで共最適化されていない。本稿では,無線伝送とマルチコア実行を一貫したエンドツーエンドパイプラインに統合するパラダイムについて検討する。
論文参考訳（メタデータ） (2026-03-02T17:25:43Z)
Hierarchical Online-Scheduling for Energy-Efficient Split Inference with Progressive Transmission [23.81409473238433]
Deep Neural Networks(DNN)によるデバイスエッジのコラボレーティブ推論は、精度、レイテンシ、エネルギー消費の基本的なトレードオフに直面している。本稿では,ENACHI という名前の分割推論のための新しいエネルギー精度階層型最適化フレームワークを提案する。 ImageNetデータセットの実験では、ENACHIはさまざまな期限と帯域幅で最先端のベンチマークを上回っている。
論文参考訳（メタデータ） (2026-01-13T01:56:46Z)
AoI-Aware Task Offloading and Transmission Optimization for Industrial IoT Networks: A Branching Deep Reinforcement Learning Approach [43.261887758877386]
産業用モノのインターネット(Industrial Internet of Things, IIoT)では、無線ネットワーク上で大量のデータを頻繁に送信することは、厳しいタイムライン要件を満たす必要がある。 Information (AoI)-aware multi-base station (BS) real-time monitoring framework to support extensive IIoT deployments。
論文参考訳（メタデータ） (2025-10-18T09:14:39Z)
Joint Channel Estimation and Computation Offloading in Fluid Antenna-assisted MEC Networks [81.36647816787713]
チャネル推定の遅延を最小限に抑えるためのFA支援オフロードフレームワークを提案する。提案方式は,効率的な通信を行う場合の精度を大幅に低下させることを示す。
論文参考訳（メタデータ） (2025-09-16T08:48:44Z)
Adaptive Token Merging for Efficient Transformer Semantic Communication at the Edge [28.969380251735924]
大規模トランスフォーマーは、現代のセマンティック通信の中心であるが、その高い計算と通信コストは、リソース制約されたエッジデバイスへの展開を妨げる。本稿では,実行時にトランスフォーマー表現を圧縮する新しい機構である適応トークンマージのためのトレーニングフリーフレームワークを提案する。我々のアプローチは、入力冗長性に直接マージすることで、データ依存の適応を可能にします。
論文参考訳（メタデータ） (2025-09-12T04:11:59Z)
Adaptive Pareto-Optimal Token Merging for Edge Transformer Models in Semantic Communication [27.78647101651565]
大規模トランスモデルはセマンティック通信システムのための強力なツールとして登場してきた。本稿では,事前学習型視覚変換器における適応トークンマージのためのトレーニングフリーフレームワークを提案する。
論文参考訳（メタデータ） (2025-09-11T06:05:35Z)
FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [50.438552588818]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。 Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文参考訳（メタデータ） (2025-07-07T04:09:45Z)
Token Communication in the Era of Large Models: An Information Bottleneck-Based Approach [55.861432910722186]
UniToComは、トークンを処理と無線通信の両方の基本的な単位として扱う統一トークン通信パラダイムである。本稿では,重要な情報を保持するトークンの学習を容易にする生成情報ボトルネック(GenIB)の原理を提案する。我々は、離散トークンと連続トークンの両方の処理を統合するために、因果変換器に基づくマルチモーダル言語モデル(MLLM)を受信機に採用する。
論文参考訳（メタデータ） (2025-07-02T14:03:01Z)
A Transfer Learning Framework for Multilayer Networks via Model Averaging [8.27209166988677]
多層ネットワークにおけるリンク予測は、レコメンデーションシステムやタンパク質-タンパク質相互作用予測といったアプリケーションにおいて重要な課題である。バイレベルモデル平均化手法を用いた多層ネットワークのための新しいトランスファー学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-14T11:32:31Z)
Modeling and Performance Analysis for Semantic Communications Based on Empirical Results [53.805458017074294]
終端計測とSNRの関係をモデル化するためのAlpha-Beta-Gamma (ABG) 式を提案する。画像再構成タスクでは、提案されたABG公式は、SCUNetやVision Transformerといった一般的なDLネットワークに適合する。我々の知る限りでは、これはエンドツーエンドのパフォーマンス指標と意味コミュニケーションのためのSNRの間の最初の理論的表現である。
論文参考訳（メタデータ） (2025-04-29T06:07:50Z)
InfoMAE: Pair-Efficient Cross-Modal Alignment for Multimodal Time-Series Sensing Signals [9.648001493025204]
InfoMAEは、SSL設定下でのマルチモーダルペア効率の課題に取り組む、クロスモーダルアライメントフレームワークである。下流のマルチモーダルタスクを60%以上向上させ、マルチモーダルペアリング効率を大幅に改善した。また、単一タスクの精度を平均22%向上させる。
論文参考訳（メタデータ） (2025-04-13T20:03:29Z)
Task-Oriented Feature Compression for Multimodal Understanding via Device-Edge Co-Inference [49.77734021302196]
本稿では,マルチモーダル理解のためのタスク指向特徴圧縮(TOFC)手法を提案する。圧縮効率を向上させるために、視覚特徴の特性に基づいて複数のエントロピーモデルを適応的に選択する。その結果,TOFCはデータ転送オーバヘッドの最大60%削減,システム遅延の50%削減を実現している。
論文参考訳（メタデータ） (2025-03-17T08:37:22Z)
SIMAC: A Semantic-Driven Integrated Multimodal Sensing And Communication Framework [22.924064428134507]
単一モードセンシングは精度と能力の限界に直面し、通信システムとの疎結合実装によりレイテンシが増大する。本稿では,これらの課題を克服するために,意味駆動型統合マルチモーダルセンシング・通信フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-11T01:04:42Z)
Take What You Need: Flexible Multi-Task Semantic Communications with Channel Adaptation [51.53221300103261]
本稿では,マスク付きオートエンコーダアーキテクチャに基づく,チャネル適応型・マルチタスク対応のセマンティックコミュニケーションフレームワークについて紹介する。チャネル認識抽出器を用いて、リアルタイムのチャネル条件に応じて、関連情報を動的に選択する。画像再構成や物体検出などのタスクにおける従来の手法と比較して,本手法の優れた性能を示す実験結果が得られた。
論文参考訳（メタデータ） (2025-02-12T09:01:25Z)
R-MTLLMF: Resilient Multi-Task Large Language Model Fusion at the Wireless Edge [78.26352952957909]
マルチタスク大言語モデル(MTLLM)は、ユーザが複数のタスクを効率的に処理するための特殊なモデルを要求する無線エッジにおける多くのアプリケーションにとって重要である。タスクベクトルによるモデル融合の概念は、MDLLMを生成するための微調整パラメータを組み合わせるための効率的なアプローチとして登場した。本稿では,最悪の逆攻撃を前提として,エッジユーザがタスクベクトルを介して協調的にMTLMを作成できる問題について検討する。
論文参考訳（メタデータ） (2024-11-27T10:57:06Z)
FedMFS: Federated Multimodal Fusion Learning with Selective Modality Communication [11.254610576923204]
選択的モーダル通信を用いたFedMFS(Federated Multimodal Fusion Learning)を提案する。鍵となる考え方は、各デバイスに対するモダリティ選択基準の導入であり、(i)Shapley値解析によって測定されたモダリティの影響を重み付けし、(ii)モダリティモデルサイズを通信オーバーヘッドの指標とする。実世界のActionSenseデータセットの実験では、FedMFSが複数のベースラインに匹敵する精度を達成し、通信オーバーヘッドを4倍に削減できることを示した。
論文参考訳（メタデータ） (2023-10-10T22:23:27Z)
Large AI Model Empowered Multimodal Semantic Communications [48.73159237649128]
本稿では,Large AI Model-based Multimodal SC (LAMMSC) フレームワークを提案する。まず、条件付きマルチモーダルアライメント(MMA)を提案し、マルチモーダルデータと非モーダルデータ間の変換を可能にする。次に、パーソナライズされたLLMベースの知識ベース(LKB)を提案し、ユーザがパーソナライズされたセマンティック抽出やリカバリを行うことができる。最後に,CGE(Generative Adversarial Network-based Channel Estimation)を用いて,無線チャネルの状態情報を推定する。
論文参考訳（メタデータ） (2023-09-03T19:24:34Z)
Proximal Policy Optimization-based Transmit Beamforming and Phase-shift Design in an IRS-aided ISAC System for the THz Band [90.45915557253385]
テラヘルツ(THz)帯で動作するIRS支援統合センシング・通信(ISAC)システムを提案し,システム容量を最大化する。透過ビームフォーミングと位相シフト設計はエルゴード制約を伴う普遍最適化問題に変換される。
論文参考訳（メタデータ） (2022-03-21T09:15:18Z)
Low-Latency Federated Learning over Wireless Channels with Differential Privacy [142.5983499872664]
フェデレートラーニング(FL)では、モデルトレーニングはクライアントに分散し、ローカルモデルは中央サーバによって集約される。本稿では,各クライアントの差分プライバシ(DP)要件だけでなく,全体としてのトレーニング性能に制約された無線チャネル上でのFLトレーニング遅延を最小限に抑えることを目的とする。
論文参考訳（メタデータ） (2021-06-20T13:51:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。