論文の概要: MTRouter: Cost-Aware Multi-Turn LLM Routing with History-Model Joint Embeddings
- arxiv url: http://arxiv.org/abs/2604.23530v1
- Date: Sun, 26 Apr 2026 04:42:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.412434
- Title: MTRouter: Cost-Aware Multi-Turn LLM Routing with History-Model Joint Embeddings
- Title(参考訳): MTRouter: 履歴モデル共同埋め込みを用いたコスト対応マルチTurn LLMルーティング
- Authors: Yiqun Zhang, Hao Li, Zihan Wang, Shi Feng, Xiaocui Yang, Daling Wang, Bo Zhang, Lei Bai, Shuyue Hu,
- Abstract要約: 大規模言語モデルに対する費用対効果を考慮したマルチターンルーティングについて検討する。
本稿では,対話履歴と候補モデルを結合履歴モデルにエンコードするMTを提案する。
実験によると、MTはパフォーマンスコストのトレードオフを改善する。
- 参考スコア(独自算出の注目度): 47.963523156965174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-turn, long-horizon tasks are increasingly common for large language models (LLMs), but solving them typically requires many sequential model invocations, accumulating substantial inference costs. Here, we study cost-aware multi-turn LLM routing: selecting which model to invoke at each turn from a model pool, given a fixed cost budget. We propose MTRouter, which encodes the interaction history and candidate models into joint history-model embeddings, and learns an outcome estimator from logged trajectories to predict turn-level model utility. Experiments show that MTRouter improves the performance-cost trade-off: on ScienceWorld, it surpasses GPT-5 while reducing total cost by 58.7%; on Humanity's Last Exam (HLE), it achieves competitive accuracy while reducing total cost by 43.4% relative to GPT-5, and these gains even carry over to held-out tasks. Further analyses reveal several mechanisms underlying its effectiveness: relative to prior multi-turn routers, MTRouter makes fewer model switches, is more tolerant to transient errors, and exhibits emergent specialization across models. Code: https://github.com/ZhangYiqun018/MTRouter
- Abstract(参考訳): マルチターン、ロングホライゾンタスクは、大規模言語モデル(LLM)ではますます一般的になっているが、それらを解決するには、多くのシーケンシャルなモデル呼び出しが必要であり、かなりの推論コストを蓄積する。
本稿では,モデルプールから各ターンでどのモデルを呼び出すかを,固定コストの予算で選択する,コスト対応型マルチターンLLMルーティングについて検討する。
我々は,対話履歴と候補モデルを結合履歴モデル埋め込みに符号化し,ログ付き軌道から結果推定器を学習し,ターンレベルのモデルの有用性を予測するMTRouterを提案する。
ScienceWorldでは、総コストを58.7%削減し、HLE(Humanity's Last Exam)では、総コストを43.4%削減し、GPT-5と比較して競争精度を向上し、これらの利益は保留タスクまでも引き継がれる。
先行するマルチターンルータと比較して、MTRouterはモデルスイッチを少なくし、過渡的エラーに耐性を持ち、モデル間の創発的な特殊化を示す。
コード:https://github.com/ZhangYiqun018/MTRouter
関連論文リスト
- When Routing Collapses: On the Degenerate Convergence of LLM Routers [46.01380774114097]
ユーザのコスト予算が増加するにつれて、ルータは体系的に最も有能で最も高価なモデルにデフォルトとなる。
モデルランキングを直接学習する決定対応ルータであるEquiを提案する。
RouterBenchでは、最強の先行ルータと比較して、GPT-4レベルのパフォーマンスでコストを約17%削減する。
論文 参考訳(メタデータ) (2026-02-03T12:51:55Z) - RouteMoA: Dynamic Routing without Pre-Inference Boosts Efficient Mixture-of-Agents [91.0187958746262]
RouteMoAは動的ルーティングを備えた効率的な混合エージェントフレームワークである。
軽量スコアラを使用して、クエリから粗い粒度のパフォーマンスを予測することで、初期スクリーニングを行う。
既存のモデル出力に基づいて、軽量な自己評価とクロスアセスメントによってこれらのスコアを洗練し、追加の推論なしで後部修正を提供する。
論文 参考訳(メタデータ) (2026-01-26T04:22:22Z) - Confidence-Guided Stepwise Model Routing for Cost-Efficient Reasoning [20.41220110321494]
コスト効率の良い推論のための信頼誘導ステップワイドモデルルーティングを提案する。
STEERはドメインに依存しないフレームワークで、小さくて大きな言語モデル間のきめ細かいステップレベルのルーティングを実行する。
その結果,モデルルーティングのための堅牢でドメインに依存しない信号として,モデル内部信頼が確立された。
論文 参考訳(メタデータ) (2025-11-09T02:33:08Z) - Cost-Aware Contrastive Routing for LLMs [57.30288453580456]
我々は、プロンプトとモデルの両方を共有埋め込み空間にマッピングする軽量フレームワークであるコストスペクトルコントラストルーティング(CSCR)を紹介します。
CSCRはベースラインを一貫して上回り、精度とコストのトレードオフを最大25%改善した。
論文 参考訳(メタデータ) (2025-08-17T20:16:44Z) - OmniRouter: Budget and Performance Controllable Multi-LLM Routing [31.60019342381251]
大規模言語モデル(LLM)は優れた性能を提供するが、かなりの計算資源を必要とし、比較的低効率で運用する。
マルチLLMサービスのための制御可能なルーティングフレームワークであるOmniを紹介する。
実験の結果、Omniは応答精度を最大6.30%改善し、同時に計算コストを少なくとも10.15%削減した。
論文 参考訳(メタデータ) (2025-02-27T22:35:31Z) - Layerwise Recurrent Router for Mixture-of-Experts [42.36093735411238]
Mixture-of-Experts (MoE)アーキテクチャは、トレーニングコストを大幅に増加させることなく、モデルサイズをスケールできる能力で際立っている。
現在のMoEモデルはパラメータ非効率をしばしば表示する。
我々はMixture-of-Experts(RMoE)のためのLayerwise Recurrent Routerを紹介する。
論文 参考訳(メタデータ) (2024-08-13T10:25:13Z) - MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large
Language Models [70.92847554971065]
MT-Evalは,マルチターン対話能力を評価するための総合的なベンチマークである。
人間のLLM会話を解析することにより,インタラクションパターンを,再現,拡張,洗練,フォローアップの4つのタイプに分類する。
11個の有名なLCMを評価したところ、クローズドソースモデルは一般的にオープンソースモデルを上回るが、特定のタスクにおいて特定のオープンソースモデルの方がGPT-3.5-Turboを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-01-30T04:50:28Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。