論文の概要: Advancing Compositional LLM Reasoning with Structured Task Relations in Interactive Multimodal Communications
- arxiv url: http://arxiv.org/abs/2507.21199v1
- Date: Mon, 28 Jul 2025 09:33:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.148312
- Title: Advancing Compositional LLM Reasoning with Structured Task Relations in Interactive Multimodal Communications
- Title(参考訳): 対話型マルチモーダル通信における構造的タスク関係を考慮した合成LLM推論の高速化
- Authors: Xinye Cao, Hongcan Guo, Guoshun Nan, Jiaoyang Cui, Haoting Qian, Yihan Lin, Yilin Peng, Diyang Zhang, Yanzhao Hou, Huici Wu, Xiaofeng Tao, Tony Q. S. Quek,
- Abstract要約: 本稿では,無線ネットワーク上での単一合成LLMを用いて,多様なIMAを実現する新しいパラダイムを提案する。
最初の課題に取り組むために、我々はILMを案内する新しい方法であるContextLoRAを提案し、IMA間のリッチな構造化コンテキストを学習する。
3つのベンチマークの実験は、提案されたContextLoRAとContextGearの優位性を示している。
- 参考スコア(独自算出の注目度): 42.945657927971
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interactive multimodal applications (IMAs), such as route planning in the Internet of Vehicles, enrich users' personalized experiences by integrating various forms of data over wireless networks. Recent advances in large language models (LLMs) utilize mixture-of-experts (MoE) mechanisms to empower multiple IMAs, with each LLM trained individually for a specific task that presents different business workflows. In contrast to existing approaches that rely on multiple LLMs for IMAs, this paper presents a novel paradigm that accomplishes various IMAs using a single compositional LLM over wireless networks. The two primary challenges include 1) guiding a single LLM to adapt to diverse IMA objectives and 2) ensuring the flexibility and efficiency of the LLM in resource-constrained mobile environments. To tackle the first challenge, we propose ContextLoRA, a novel method that guides an LLM to learn the rich structured context among IMAs by constructing a task dependency graph. We partition the learnable parameter matrix of neural layers for each IMA to facilitate LLM composition. Then, we develop a step-by-step fine-tuning procedure guided by task relations, including training, freezing, and masking phases. This allows the LLM to learn to reason among tasks for better adaptation, capturing the latent dependencies between tasks. For the second challenge, we introduce ContextGear, a scheduling strategy to optimize the training procedure of ContextLoRA, aiming to minimize computational and communication costs through a strategic grouping mechanism. Experiments on three benchmarks show the superiority of the proposed ContextLoRA and ContextGear. Furthermore, we prototype our proposed paradigm on a real-world wireless testbed, demonstrating its practical applicability for various IMAs. We will release our code to the community.
- Abstract(参考訳): インターネット・オブ・ビークルズ(Internet of Vehicles)における経路計画のようなインタラクティブなマルチモーダルアプリケーション(IMA)は、無線ネットワーク上で様々な形式のデータを統合することで、ユーザのパーソナライズされたエクスペリエンスを豊かにする。
大規模言語モデル (LLM) の最近の進歩は、複数の IMA を強化するために、Mix-of-experts (MoE) メカニズムを利用しており、それぞれの LLM は、異なるビジネスワークフローを示す特定のタスクに対して個別に訓練されている。
IMAの複数のLLMに依存している既存のアプローチとは対照的に,無線ネットワーク上で単一構成LPMを用いて様々なIMAを実現する新しいパラダイムを提案する。
主な課題は2つある。
1)単一のLCMを多様なIMAの目的に適応させるよう指示する。
2)資源制約された移動環境におけるLCMの柔軟性と効率性を確保する。
最初の課題に取り組むために、タスク依存グラフを構築することにより、ILMを誘導してIMA間のリッチな構造化コンテキストを学習する新しい方法であるContextLoRAを提案する。
IMA毎に学習可能なニューラルネットワークのパラメータ行列を分割し,LLM合成を容易にする。
そこで我々は,学習,凍結,マスキングのフェーズを含むタスク関係によって指導されたステップバイステップの微調整手順を開発した。
これにより、LCMはタスク間の依存関係をキャプチャして、より適応性を高めるためにタスク間の推論を学ぶことができる。
第2の課題として,ContextLoRAのトレーニング手順を最適化するスケジューリング戦略であるContextGearを紹介する。
3つのベンチマークの実験は、提案されたContextLoRAとContextGearの優位性を示している。
さらに,提案手法を実世界の無線テストベッド上に試作し,様々なIMAに適用可能であることを実証した。
私たちはコードをコミュニティに公開します。
関連論文リスト
- Distilling Transitional Pattern to Large Language Models for Multimodal Session-based Recommendation [67.84581846180458]
セッションベースのレコメンデーション(SBR)は、匿名セッションに基づいて次の項目を予測する。
近年のMultimodal SBR法は、モダリティ学習に単純化された事前学習モデルを用いるが、セマンティック・リッチネスに制限がある。
蒸留パラダイムを拡張し,MSBRの促進のための遷移パターンを分離・整合させる多モードLCM拡張フレームワークTPADを提案する。
論文 参考訳(メタデータ) (2025-04-13T07:49:08Z) - Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。
セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。
本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文 参考訳(メタデータ) (2024-06-14T19:24:00Z) - A Practice-Friendly LLM-Enhanced Paradigm with Preference Parsing for Sequential Recommendation [15.153844486572932]
本稿では、シーケンシャルレコメンデータシステム(SRS)のための優先構文解析(P2Rec)を用いた実践的LLM拡張パラダイムを提案する。
具体的には、情報再構成段階において、事前学習したSRSモデルの助けを借りて、協調的な情報注入のための新しいユーザレベルSFTタスクを設計する。
我々のゴールは、LLMが各ユーザのインタラクションシーケンスから対応する優先度分布を再構築することを学ばせることである。
論文 参考訳(メタデータ) (2024-06-01T07:18:56Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [17.3535277338312]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。
この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文 参考訳(メタデータ) (2023-11-09T13:18:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。