論文の概要: RouteMoA: Dynamic Routing without Pre-Inference Boosts Efficient Mixture-of-Agents
- arxiv url: http://arxiv.org/abs/2601.18130v1
- Date: Mon, 26 Jan 2026 04:22:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.676562
- Title: RouteMoA: Dynamic Routing without Pre-Inference Boosts Efficient Mixture-of-Agents
- Title(参考訳): RouteMoA: 事前推論のない動的ルーティングは、効率的な混合処理を促進する
- Authors: Jize Wang, Han Wu, Zhiyuan You, Yiming Song, Yijun Wang, Zifei Shan, Yining Li, Songyang Zhang, Xinyi Le, Cailian Chen, Xinping Guan, Dacheng Tao,
- Abstract要約: RouteMoAは動的ルーティングを備えた効率的な混合エージェントフレームワークである。
軽量スコアラを使用して、クエリから粗い粒度のパフォーマンスを予測することで、初期スクリーニングを行う。
既存のモデル出力に基づいて、軽量な自己評価とクロスアセスメントによってこれらのスコアを洗練し、追加の推論なしで後部修正を提供する。
- 参考スコア(独自算出の注目度): 91.0187958746262
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Mixture-of-Agents (MoA) improves LLM performance through layered collaboration, but its dense topology raises costs and latency. Existing methods employ LLM judges to filter responses, yet still require all models to perform inference before judging, failing to cut costs effectively. They also lack model selection criteria and struggle with large model pools, where full inference is costly and can exceed context limits. To address this, we propose RouteMoA, an efficient mixture-of-agents framework with dynamic routing. It employs a lightweight scorer to perform initial screening by predicting coarse-grained performance from the query, narrowing candidates to a high-potential subset without inference. A mixture of judges then refines these scores through lightweight self- and cross-assessment based on existing model outputs, providing posterior correction without additional inference. Finally, a model ranking mechanism selects models by balancing performance, cost, and latency. RouteMoA outperforms MoA across varying tasks and model pool sizes, reducing cost by 89.8% and latency by 63.6% in the large-scale model pool.
- Abstract(参考訳): Mixture-of-Agents (MoA) は階層的なコラボレーションによって LLM のパフォーマンスを改善するが、その密集したトポロジはコストとレイテンシを高める。
既存の手法では、LCMの判定器を使って応答をフィルタリングするが、判定する前に推論を行うために全てのモデルが必要であり、コストを効果的に削減できなかった。
また、モデル選択の基準が欠如しており、完全な推論がコストがかかり、コンテキスト制限を超える可能性がある大きなモデルプールと戦っている。
そこで我々は動的ルーティングを備えた効率的な混合エージェントフレームワークであるRouteMoAを提案する。
クエリから粗粒度のパフォーマンスを予測し、推測なしで候補を高能率サブセットに絞り込み、初期スクリーニングを行うために軽量スコアラを使用している。
審査員の混合は、既存のモデル出力に基づいて、これらのスコアを軽量な自己評価とクロスアセスメントによって洗練し、追加の推論なしで後部修正を提供する。
最後に、モデルランキングメカニズムは、パフォーマンス、コスト、レイテンシのバランスをとることでモデルを選択する。
RouteMoAは様々なタスクやモデルプールサイズでMoAを上回り、コストを89.8%削減し、大規模モデルプールのレイテンシを63.6%削減した。
関連論文リスト
- LLM Routing with Dueling Feedback [49.67815163970033]
ユーザの満足度,モデルの専門性,推論コストのバランスを保ちながら,クエリ毎に最適なモデルを選択するという課題について検討する。
絶対的なスコアではなく、ペアの選好フィードバックから学習することで、ルーティングをコンテキストデュエルの帯域として定式化する。
分類的重み付けを用いた対照的な微調整を用いて,オフラインデータからモデル埋め込みを導出する表現学習手法であるカテゴリーキャリブレーション・ファインタニング(CCFT)を導入する。
論文 参考訳(メタデータ) (2025-10-01T12:52:25Z) - BEST-Route: Adaptive LLM Routing with Test-Time Optimal Compute [25.740809143951815]
BEST-Routeは、クエリの難しさと品質閾値に基づいて、モデルとサンプルに対する応答数を選択する新しいルーティングフレームワークである。
実世界のデータセットを用いた実験により,提案手法はコストを最大60%削減し,性能低下は1%以下であった。
論文 参考訳(メタデータ) (2025-06-28T01:52:50Z) - Optimizing Distributed Deployment of Mixture-of-Experts Model Inference in Serverless Computing [9.217991144854851]
現在、Mixture-of-Experts (MoE) モデルはモデルアーキテクチャの主流となっている。
サーバレスプラットフォーム上での最適化されたMoEモデルデプロイメントと分散推論について検討する。
私たちの設計では、CPUクラスタと比較して、すべてのMoE層の請求コストを少なくとも75.67%削減しています。
論文 参考訳(メタデータ) (2025-01-09T15:29:33Z) - On Optimal Caching and Model Multiplexing for Large Model Inference [66.50550915522551]
大きな言語モデル(LLM)や他の大きな基盤モデルは注目すべき成功を収めているが、そのサイズは既存のリソース消費とレイテンシーの問題を悪化させている。
キャッシュを用いて以前のクエリを格納し、モデルの多重化を学習し、クエリ処理のためのモデルの集合から選択する。
論文 参考訳(メタデータ) (2023-06-03T05:01:51Z) - MILO: Model-Agnostic Subset Selection Framework for Efficient Model
Training and Tuning [68.12870241637636]
モデル学習からサブセット選択を分離するモデルに依存しないサブセット選択フレームワークMILOを提案する。
実験結果から、MILOはモデルを3ドル(約3,300円)でトレーニングし、ハイパーパラメータを20ドル(約2,300円)でチューニングできます。
論文 参考訳(メタデータ) (2023-01-30T20:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。