論文の概要: Models Under SCOPE: Scalable and Controllable Routing via Pre-hoc Reasoning
- arxiv url: http://arxiv.org/abs/2601.22323v1
- Date: Thu, 29 Jan 2026 21:09:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.06704
- Title: Models Under SCOPE: Scalable and Controllable Routing via Pre-hoc Reasoning
- Title(参考訳): SCOPE下のモデル: プリホック推論によるスケーラブルで制御可能なルーティング
- Authors: Qi Cao, Shuhao Zhang, Ruizhe Zhou, Ruiyi Zhang, Peijia Qin, Pengtao Xie,
- Abstract要約: コストと性能を予測してモデル選択を超えるルーティングフレームワークであるSCOPEを提案する。
SCOPEは、モデル名の固定に依存するのではなく、モデルがどのように同様の問題に対処するかを検索することで、推論に基づく予測を行う。
性能が優先される場合の精度を最大25.7%向上させるか、効率が重要な場合のコストを最大95.1%削減することができる。
- 参考スコア(独自算出の注目度): 28.165465162107253
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model routing chooses which language model to use for each query. By sending easy queries to cheaper models and hard queries to stronger ones, it can significantly reduce inference cost while maintaining high accuracy. However, most existing routers treat this as a fixed choice among a small set of models, which makes them hard to adapt to new models or changing budget constraints. In this paper, we propose SCOPE (Scalable and Controllable Outcome Performance Estimator), a routing framework that goes beyond model selection by predicting their cost and performance. Trained with reinforcement learning, SCOPE makes reasoning-based predictions by retrieving how models behave on similar problems, rather than relying on fixed model names, enabling it to work with new, unseen models. Moreover, by explicitly predicting how accurate and how expensive a model will be, it turns routing into a dynamic decision problem, allowing users to easily control the trade-off between accuracy and cost. Experiments show that SCOPE is more than just a cost-saving tool. It flexibly adapts to user needs: it can boost accuracy by up to 25.7% when performance is the priority, or cut costs by up to 95.1% when efficiency matters most.
- Abstract(参考訳): モデルルーティングは、クエリ毎に使用する言語モデルを選択する。
より安価なモデルに簡単なクエリを送信し、より強力なモデルにハードクエリを送信することで、高い精度を維持しながら推論コストを大幅に削減することができる。
しかし、既存のルータの多くは、これを小さなモデルの集合の中で固定的な選択として扱うため、新しいモデルへの適応や予算制約の変更が困難になる。
本稿では,そのコストと性能を予測して,モデル選択を超えるルーティングフレームワークであるSCOPE(Scalable and Controllable Outcome Performance Estimator)を提案する。
SCOPEは強化学習で訓練され、モデルが固定されたモデル名に頼るのではなく、類似した問題に対してどのように振る舞うかを検索することで、推論に基づく予測を行う。
さらに、モデルがどれだけ正確で費用がかかるかを明示的に予測することで、ルーティングを動的決定問題に変換し、ユーザが精度とコストのトレードオフを容易に制御できるようになる。
SCOPEは単なるコスト削減ツール以上のものです。
パフォーマンスが優先される場合の精度を最大25.7%向上させるか、効率が重要な場合のコストを最大95.1%削減する。
関連論文リスト
- RouteMoA: Dynamic Routing without Pre-Inference Boosts Efficient Mixture-of-Agents [91.0187958746262]
RouteMoAは動的ルーティングを備えた効率的な混合エージェントフレームワークである。
軽量スコアラを使用して、クエリから粗い粒度のパフォーマンスを予測することで、初期スクリーニングを行う。
既存のモデル出力に基づいて、軽量な自己評価とクロスアセスメントによってこれらのスコアを洗練し、追加の推論なしで後部修正を提供する。
論文 参考訳(メタデータ) (2026-01-26T04:22:22Z) - Confidence-Guided Stepwise Model Routing for Cost-Efficient Reasoning [20.41220110321494]
コスト効率の良い推論のための信頼誘導ステップワイドモデルルーティングを提案する。
STEERはドメインに依存しないフレームワークで、小さくて大きな言語モデル間のきめ細かいステップレベルのルーティングを実行する。
その結果,モデルルーティングのための堅牢でドメインに依存しない信号として,モデル内部信頼が確立された。
論文 参考訳(メタデータ) (2025-11-09T02:33:08Z) - Optimizing Reasoning Efficiency through Prompt Difficulty Prediction [14.470330195517903]
推論言語モデルは複雑なタスクでうまく機能するが、そのサイズと長い推論トレースのためにデプロイするのにコストがかかる。
本稿では,各問題を解きそうな最小のモデルに割り当てるルーティング手法を提案し,精度を犠牲にすることなく計算量を削減した。
論文 参考訳(メタデータ) (2025-11-05T19:14:53Z) - e1: Learning Adaptive Control of Reasoning Effort [88.51897900019485]
AIモデルの思考予算の増大は、精度を大幅に向上させるが、すべての質問が同じ量の推論を保証しているわけではない。
ユーザは、アウトプットの品質を、レイテンシやコストに対してどのように評価するかによって、さまざまな理由付けの労力を割り当てる傾向があります。
本稿では,ユーザが指定したトークン数を用いてモデルを学習する自己適応型強化学習手法であるAdaptive Effort Controlを提案する。
論文 参考訳(メタデータ) (2025-10-30T23:12:21Z) - RADAR: Reasoning-Ability and Difficulty-Aware Routing for Reasoning LLMs [51.88834210085435]
本稿では、軽量で解釈可能でスケーラブルなルーティングフレームワークRADAR(Reasoning-Ability and Difficulty-Aware Routing)を提案する。
心理測定にインスパイアされたRADARは、さまざまな予算を持つモデル応答から異なるクエリへのアイテム応答モデルを学ぶ。
我々は8つの広く使われている推論ベンチマークについて広範な実験を行い、最先端のルーティング手法と比較してRADARの優れた性能を実証した。
論文 参考訳(メタデータ) (2025-09-29T19:33:44Z) - SynapseRoute: An Auto-Route Switching Framework on Dual-State Large Language Model [12.929385845055137]
その結果,医療質問の約58%は,非思考モードだけで正確に回答できることがわかった。
機械学習に基づく動的ルーティングフレームワークであるSynapseRouteを提案する。
論文 参考訳(メタデータ) (2025-07-03T17:33:58Z) - BEST-Route: Adaptive LLM Routing with Test-Time Optimal Compute [25.740809143951815]
BEST-Routeは、クエリの難しさと品質閾値に基づいて、モデルとサンプルに対する応答数を選択する新しいルーティングフレームワークである。
実世界のデータセットを用いた実験により,提案手法はコストを最大60%削減し,性能低下は1%以下であった。
論文 参考訳(メタデータ) (2025-06-28T01:52:50Z) - SafeRoute: Adaptive Model Selection for Efficient and Accurate Safety Guardrails in Large Language Models [63.63254955809224]
本稿では,難しい例と簡単な例を区別するバイナリルータを提案する。
提案手法は、ルータが考慮するデータに対して、より大きな安全ガードモデルを選択的に適用し、精度を維持しながら効率を向上する。
複数のベンチマークデータセットによる実験結果から,適応モデルの選択により,計算コストと安全性性能のトレードオフが著しく向上することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:51:17Z) - Model Cascading for Code: A Cascaded Black-Box Multi-Model Framework for Cost-Efficient Code Completion with Self-Testing [20.445496441396028]
本稿では,モデルカスケーディングと推論時自己テストアルゴリズムを組み合わせた新しいフレームワークを提案する。
このアプローチでは,自己生成テストを活用して精度を高め,モデルのカスケード決定を評価する。
実験結果から, カスケード手法はコストを平均26%削減し, ベストケースでは最大70%削減できることがわかった。
論文 参考訳(メタデータ) (2024-05-24T16:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。