論文の概要: Token-Level LLM Collaboration via FusionRoute
- arxiv url: http://arxiv.org/abs/2601.05106v1
- Date: Thu, 08 Jan 2026 16:53:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.288128
- Title: Token-Level LLM Collaboration via FusionRoute
- Title(参考訳): FusionRouteによるToken-Level LLMコラボレーション
- Authors: Nuoya Xiong, Yuhang Zhou, Hanqing Zeng, Zhaorun Chen, Furong Huang, Shuchao Bi, Lizhu Zhang, Zhuokai Zhao,
- Abstract要約: FusionRouteはトークンレベルのマルチLLMコラボレーションフレームワークである。
各デコーディングステップで最も適した専門家を選択し、選択した専門家の次のTokenディストリビューションを洗練または修正する補完ロジットをコントリビュートする。
シーケンスレベルのコラボレーションとトークンレベルのコラボレーション、モデルマージ、ダイレクト微調整の両方に優れています。
- 参考スコア(独自算出の注目度): 60.72307345997823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) exhibit strengths across diverse domains. However, achieving strong performance across these domains with a single general-purpose model typically requires scaling to sizes that are prohibitively expensive to train and deploy. On the other hand, while smaller domain-specialized models are much more efficient, they struggle to generalize beyond their training distributions. To address this dilemma, we propose FusionRoute, a robust and effective token-level multi-LLM collaboration framework in which a lightweight router simultaneously (i) selects the most suitable expert at each decoding step and (ii) contributes a complementary logit that refines or corrects the selected expert's next-token distribution via logit addition. Unlike existing token-level collaboration methods that rely solely on fixed expert outputs, we provide a theoretical analysis showing that pure expert-only routing is fundamentally limited: unless strong global coverage assumptions hold, it cannot in general realize the optimal decoding policy. By augmenting expert selection with a trainable complementary generator, FusionRoute expands the effective policy class and enables recovery of optimal value functions under mild conditions. Empirically, across both Llama-3 and Gemma-2 families and diverse benchmarks spanning mathematical reasoning, code generation, and instruction following, FusionRoute outperforms both sequence- and token-level collaboration, model merging, and direct fine-tuning, while remaining competitive with domain experts on their respective tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な領域にまたがる強みを示す。
しかしながら、単一の汎用モデルでこれらのドメイン間で強力なパフォーマンスを達成するには、トレーニングやデプロイに極めてコストがかかるサイズにスケールする必要があるのが一般的である。
一方、より小さなドメイン特化モデルの方がはるかに効率的であるが、トレーニング分布を超えた一般化に苦慮している。
このジレンマに対処するために,軽量ルータを同時に使用する,堅牢で効果的なトークンレベルのマルチLLM協調フレームワークFusionRouteを提案する。
一 各復号工程において最も適した専門家を選定し、
(ii)ロジットの追加を通じて、選択した専門家の次のトーケン分布を洗練または修正する補完ロジットをコントリビュートする。
固定された専門家の出力にのみ依存する既存のトークンレベルの協調手法とは異なり、我々は純粋に専門家のみのルーティングが基本的に制限されていることを示す理論的分析を提供する。
訓練可能な補完ジェネレータで専門家の選択を増強することにより、FusionRouteは効果的なポリシークラスを拡張し、穏やかな条件下での最適値関数の回復を可能にする。
経験的に、Llama-3 と Gemma-2 ファミリーと、数学的推論、コード生成、インストラクションにまたがる様々なベンチマークにおいて、FusionRoute はシーケンスレベルのコラボレーション、トークンレベルのコラボレーション、モデルマージ、ダイレクト微調整の両方に優れており、それぞれのタスクに関してドメインの専門家と競争し続けている。
関連論文リスト
- Atlas: Orchestrating Heterogeneous Models and Tools for Multi-Domain Complex Reasoning [26.35834992466776]
ATLASは、クロスドメイン複合推論における動的ツール使用のためのデュアルパスフレームワークである。
我々のフレームワークは、特殊なマルチモーダルツールを編成することで、視覚的推論において大きな進歩を見せている。
論文 参考訳(メタデータ) (2026-01-07T12:38:33Z) - Mixture of Thoughts: Learning to Aggregate What Experts Think, Not Just What They Say [4.273730624882391]
Mixture of Thoughts (MoT) は、グローバルなルーティング方式の下で、異種の専門家間の潜在レベル協調のための単純な方法である。
MoTは現在のルーティングと集約ベースのアベンジャーズをそれぞれ$+0.38%$と$+2.92%$で上回っている。
論文 参考訳(メタデータ) (2025-09-25T13:50:09Z) - Separation and Collaboration: Two-Level Routing Grouped Mixture-of-Experts for Multi-Domain Continual Learning [7.361665112773847]
破滅的忘れを緩和する2レベル混合実験法(TRGE)を提案する。
TRGEはトレーニング済みのCLIPモデルを動的に拡張し、各タスクに特定の専門家グループを割り当てる。
我々は,タスク記述を生成し,正しいタスク識別子を認識するために,強力なマルチモーダル理解機能を持つマルチモーダル大規模言語モデル(MLLM)を利用する。
論文 参考訳(メタデータ) (2025-08-11T08:18:22Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - Symbolic Mixture-of-Experts: Adaptive Skill-based Routing for Heterogeneous Reasoning [76.10639521319382]
シンボリックなテキストベースでグラデーションのないMixture-of-ExpertsフレームワークであるSybolic-MoEを提案する。
GPT4o-miniのような強力なLCMやマルチエージェントアプローチに勝るSymbolic-MoEは、最高のマルチエージェントベースラインよりも8.15%向上している。
論文 参考訳(メタデータ) (2025-03-07T18:03:13Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - T-REX: Mixture-of-Rank-One-Experts with Semantic-aware Intuition for Multi-task Large Language Model Finetuning [31.276142111455847]
大規模言語モデル(LLM)は多様なマルチタスクの微調整において重要な適応課題に直面している。
我々はmixunderlinetextbfTureunderlinetextbf-of-underlinetextbfRank-onunderlinetextbfE-eunderlinetextbfXper ts (textttT-REX) という新しいフレームワークを設計する。
Rank-1のエキスパートは、ミックス・アンド・マッチのメカニズムにより、線形パラメータのオーバーヘッドを持つエキスパートのベクトル部分空間を2次に拡張し、最適で近似誤差削減を達成することができる。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。