論文の概要: Trade-offs in Ensembling, Merging and Routing Among Parameter-Efficient Experts
- arxiv url: http://arxiv.org/abs/2603.03535v1
- Date: Tue, 03 Mar 2026 21:44:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.097797
- Title: Trade-offs in Ensembling, Merging and Routing Among Parameter-Efficient Experts
- Title(参考訳): パラメータ効率のよい専門家の組み立て・合併・調整におけるトレードオフ
- Authors: Sanae Lotfi, Lucas Caccia, Alessandro Sordoni, Jordan T. Ash, Miroslav Dudik,
- Abstract要約: 大規模言語モデル(LLM)は、軽量アダプタで微調整され、多様なタスクにわたって強力なパフォーマンスを実現する。
異なる強みを持つ独立に訓練されたモデルを使用することで、3つの主要な戦略を通じてマルチタスク学習の可能性を示している。
私たちは、彼らのトレードオフを実証的に評価し、2つの重要な疑問に対処します。 均一なアンサンブルやマージを超えて行く利点は何ですか?そして、ルーティングの柔軟性は、その複雑さを正当化するのでしょうか?
- 参考スコア(独自算出の注目度): 56.02203242609604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models (LLMs) fine-tuned with lightweight adapters achieve strong performance across diverse tasks, their performance on individual tasks depends on the fine-tuning strategy. Fusing independently trained models with different strengths has shown promise for multi-task learning through three main strategies: ensembling, which combines outputs from independent models; merging, which fuses model weights via parameter averaging; and routing, which integrates models in an input-dependent fashion. However, many design decisions in these approaches remain understudied, and the relative benefits of more sophisticated ensembling, merging and routing techniques are not fully understood. We empirically evaluate their trade-offs, addressing two key questions: What are the advantages of going beyond uniform ensembling or merging? And does the flexibility of routing justify its complexity? Our findings indicate that non-uniform ensembling and merging improve performance, but routing offers even greater gains. To mitigate the computational cost of routing, we analyze expert selection techniques, showing that clustering and greedy subset selection can maintain reasonable performance with minimal overhead. These insights advance our understanding of model fusion for multi-task learning.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なタスクにまたがる強力なパフォーマンスを実現するが、個々のタスクにおけるそれらのパフォーマンスは微調整戦略に依存している。
独立したモデルから出力を合成するアンサンブル、パラメータ平均化を通じてモデルの重みを融合するマージ、入力に依存しない方法でモデルを統合するルーティングである。
しかし、これらのアプローチにおける多くの設計決定は未検討であり、より洗練されたアンサンブル、マージ、ルーティング技術の相対的な利点は、完全には理解されていない。
私たちは、彼らのトレードオフを実証的に評価し、2つの重要な疑問に対処します。
ルーティングの柔軟性は、その複雑さを正当化するのだろうか?
その結果,非均一なアンサンブルとマージにより性能は向上するが,ルーティングがさらに向上することが示唆された。
ルーティングの計算コストを軽減するため、我々は専門家の選択手法を分析し、クラスタリングと欲求サブセットの選択が最小限のオーバーヘッドで合理的な性能を維持することができることを示した。
これらの知見は、マルチタスク学習のためのモデル融合の理解を促進する。
関連論文リスト
- From Sparse Decisions to Dense Reasoning: A Multi-attribute Trajectory Paradigm for Multimodal Moderation [59.27094165576015]
疎度な意思決定から高密度な推論トレースへ移行する新しい学習パラダイム(UniMod)を提案する。
モノリシックな意思決定タスクを多次元境界学習プロセスに再構成し,エビデンス,モダリティ評価,リスクマッピング,政策決定,応答生成を含む構造化軌道を構築する。
タスク固有のパラメータを分離し、トレーニングダイナミクスを再バランスさせ、マルチタスク学習における多様な目的間の干渉を効果的に解消する、特別な最適化戦略を導入する。
論文 参考訳(メタデータ) (2026-01-28T09:29:40Z) - Token-Level LLM Collaboration via FusionRoute [60.72307345997823]
FusionRouteはトークンレベルのマルチLLMコラボレーションフレームワークである。
各デコーディングステップで最も適した専門家を選択し、選択した専門家の次のTokenディストリビューションを洗練または修正する補完ロジットをコントリビュートする。
シーケンスレベルのコラボレーションとトークンレベルのコラボレーション、モデルマージ、ダイレクト微調整の両方に優れています。
論文 参考訳(メタデータ) (2026-01-08T16:53:16Z) - CONCUR: A Framework for Continual Constrained and Unconstrained Routing [79.85419373937765]
AIタスクは複雑さが異なり、異なる計算戦略で対処するのが最善である。
これまでのほとんどのメソッドは、すべての戦略で単一のモデルをトレーニングすることで、ルーティングフレームワークを構築していました。
制約付きルーティングと制約なしルーティングの両方をサポートする連続的なルーティングフレームワークであるCONCURを提案する。
論文 参考訳(メタデータ) (2025-12-10T07:30:13Z) - LLMRank: Understanding LLM Strengths for Model Routing [2.166956880697874]
本稿では,プロンプトから抽出したリッチで可読な機能を活用するプロンプト対応ルーティングフレームワークであるLLMRankを紹介する。
遅延埋め込みのみに依存する従来のワンショットルータとは異なり、LLMRankは、RuterBenchでトレーニングされたニューラルネットワークランキングモデルを使用して、モデル毎のユーティリティを予測する。
提案手法は,最大89.2%のオラクルユーティリティを実現すると同時に,ルーティング決定を説明する解釈可能な機能属性を提供する。
論文 参考訳(メタデータ) (2025-09-23T18:11:30Z) - Separation and Collaboration: Two-Level Routing Grouped Mixture-of-Experts for Multi-Domain Continual Learning [7.361665112773847]
破滅的忘れを緩和する2レベル混合実験法(TRGE)を提案する。
TRGEはトレーニング済みのCLIPモデルを動的に拡張し、各タスクに特定の専門家グループを割り当てる。
我々は,タスク記述を生成し,正しいタスク識別子を認識するために,強力なマルチモーダル理解機能を持つマルチモーダル大規模言語モデル(MLLM)を利用する。
論文 参考訳(メタデータ) (2025-08-11T08:18:22Z) - RobustMerge: Parameter-Efficient Model Merging for MLLMs with Direction Robustness [28.437105789298244]
RobustMergeは、方向ロバスト性を維持するために相補的なパラメータ適応を備えたトレーニング不要なパラメータ効率のマージ手法である。
多様なマルチモーダルタスクからなるベンチマークを構築し,本手法の卓越した性能と一般化性を証明する実験を行った。
論文 参考訳(メタデータ) (2025-02-24T13:52:05Z) - Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [72.10987117380584]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。
既存のメソッドは、競合を引き起こす一方で、パフォーマンスにとって重要なタスク固有の情報を捨てている。
我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-01-02T12:45:21Z) - Twin-Merging: Dynamic Integration of Modular Expertise in Model Merging [21.918559935122786]
モデルマージは、複数のタスク固有のモデルを、余分なトレーニングなしで単一のマルチタスクモデルに結合する、有望な方法である。
従来のモデルマージ手法は、微調整されたモデルに比べて大きな性能差を示すことが多い。
共有されたタスク固有の知識と排他的なタスク固有の知識の両方が、パフォーマンスのマージには不可欠であるが、排他的な知識を直接マージすることは、全体的なパフォーマンスを妨げていることを示す。
本稿では,1)知識を共有コンポーネントと排他コンポーネントにモジュール化し,冗長性を低減し効率を向上する圧縮,(2)共有およびタスク固有の知識を動的にマージする,という2つの主要な段階を包含する手法を提案する。
論文 参考訳(メタデータ) (2024-06-17T02:31:55Z) - Merging Multi-Task Models via Weight-Ensembling Mixture of Experts [64.94129594112557]
異なるタスクでトレーニングされたTransformerベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時に実行できる。
従来の手法は、タスク演算によって例示され、効率的かつスケーラブルであることが証明されている。
本稿では,Transformer層をMoEモジュールにアップスケーリングしながら,ほとんどのパラメータをマージすることを提案する。
論文 参考訳(メタデータ) (2024-02-01T08:58:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。