論文の概要: RACER: Risk-Aware Calibrated Efficient Routing for Large Language Models
- arxiv url: http://arxiv.org/abs/2603.06616v1
- Date: Fri, 20 Feb 2026 08:23:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-15 16:38:22.440128
- Title: RACER: Risk-Aware Calibrated Efficient Routing for Large Language Models
- Title(参考訳): RACER:大規模言語モデルのためのリスク対応校正効率的なルーティング
- Authors: Sai Hao, Hao Zeng, Hongxin Wei, Bingyi Jing,
- Abstract要約: LLMルーティングを$-VOR問題として定式化し、予測セットサイズを最小化し、不正なリスクを抑える。
提案するRACERは、ベースルータを出力モデルに拡張し、その後、出力を改善するために集約することができる。
理論的には、RACERはポストホックかつモデルに依存しない方法で、未確認テストデータに対して厳密な分布自由リスク制御を実現する。
- 参考スコア(独自算出の注目度): 23.345746575717545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficiently routing queries to the optimal large language model (LLM) is crucial for optimizing the cost-performance trade-off in multi-model systems. However, most existing routers rely on single-model selection, making them susceptible to misrouting. In this work, we formulate LLM routing as the $α$-VOR problem to minimize expected set size while controlling the misrouting risk, and propose a novel method -- RACER, extending base routers to output model sets that can be subsequently aggregated for improved output. In particular, RACER constructs nested model sets via augmented scoring and utilizes finite-sample concentration bounds to calibrate a threshold that allows for both variable set sizes and abstention. We theoretically prove that RACER achieves rigorous distribution-free risk control on unseen test data in a post-hoc and model-agnostic manner. Extensive experiments verify our theoretical guarantees and demonstrate that RACER consistently enhances downstream accuracy across a wide range of benchmarks.
- Abstract(参考訳): マルチモデルシステムにおける費用対効果のトレードオフを最適化するためには,クエリを最適大言語モデル (LLM) に効率的にルーティングすることが重要である。
しかし、既存のルータのほとんどはシングルモデル選択に依存しており、誤操作の影響を受けやすい。
本研究では, LLMルーティングを$α$-VOR問題として定式化し, 誤りリスクを抑えつつ, 期待されるセットサイズを最小化するとともに, ベースルータを出力モデルに拡張し, 出力を改善する新しい手法 - RACERを提案する。
特に、RACERは、強化スコアリングによってネストされたモデルセットを構築し、有限サンプル濃度境界を利用して、可変セットサイズと棄権の両方を可能にする閾値を校正する。
理論的には、RACERはポストホックかつモデルに依存しない方法で、未確認テストデータに対して厳密な分布自由リスク制御を実現する。
大規模な実験により、我々の理論的保証が検証され、RACERが広範囲のベンチマークで下流の精度を一貫して向上することを示した。
関連論文リスト
- Tiny-Critic RAG: Empowering Agentic Fallback with Parameter-Efficient Small Language Models [7.704706624419061]
Retrieval-Augmented Generations Grounds Large Language Models (LLMs) は、事実の幻覚を緩和する。
低ランク適応(LoRA)を用いたパラメータ効率小言語モデル(SLM)Tiny-Critic RAGを提案する。
Tiny-Critic RAGはGPT-4o-miniに匹敵するルーティング精度を達成し、レイテンシを桁違いに低減する。
論文 参考訳(メタデータ) (2026-03-01T00:16:31Z) - Confidence-Guided Stepwise Model Routing for Cost-Efficient Reasoning [20.41220110321494]
コスト効率の良い推論のための信頼誘導ステップワイドモデルルーティングを提案する。
STEERはドメインに依存しないフレームワークで、小さくて大きな言語モデル間のきめ細かいステップレベルのルーティングを実行する。
その結果,モデルルーティングのための堅牢でドメインに依存しない信号として,モデル内部信頼が確立された。
論文 参考訳(メタデータ) (2025-11-09T02:33:08Z) - CP-Router: An Uncertainty-Aware Router Between LLM and LRM [15.980590561603256]
LLM(Large Language Models)は、単純なクエリであっても不要な長さの出力を生成する。
LLM と LRM を動的に選択する学習不要でモデルに依存しないルーティングフレームワーク CP- を提案する。
CP- は LRM のみを使用する場合と比較して、トークンの使用量を効率的に削減し、精度を維持または改善する。
論文 参考訳(メタデータ) (2025-05-26T13:33:31Z) - How Robust Are Router-LLMs? Analysis of the Fragility of LLM Routing Capabilities [62.474732677086855]
大規模言語モデル(LLM)ルーティングは,計算コストと性能のバランスをとる上で重要な戦略である。
DSCベンチマークを提案する: Diverse, Simple, and Categorizedは、幅広いクエリタイプでルータのパフォーマンスを分類する評価フレームワークである。
論文 参考訳(メタデータ) (2025-03-20T19:52:30Z) - Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization [61.02719787737867]
大規模言語モデル(LLM)はますますエッジデバイスにデプロイされ、民主化されている。
1つの有望な解決策は不確実性に基づくSLMルーティングであり、SLM上での低信頼応答が発生すると、高い要求を強いLCMにオフロードする。
我々は1500以上の設定でSLMからLLMへの不確実性駆動型ルーティング戦略のベンチマークと一般化を包括的に調査する。
論文 参考訳(メタデータ) (2025-02-06T18:59:11Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - Risk-Controlling Model Selection via Guided Bayesian Optimization [35.53469358591976]
他の競合するメトリクスに対して有用でありながら、特定のリスクに対するユーザ指定の制限に固執する構成を見つけます。
提案手法は,指定された関心領域に属する最適構成の集合を同定する。
提案手法は,低誤差率,等式予測,スプリアス相関処理,生成モデルにおける速度と歪みの管理,計算コストの削減など,複数のデシダラタを用いたタスクに対する有効性を示す。
論文 参考訳(メタデータ) (2023-12-04T07:29:44Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Modeling the Second Player in Distributionally Robust Optimization [90.25995710696425]
我々は、最悪のケース分布を特徴付けるために神経生成モデルを使うことを議論する。
このアプローチは多くの実装と最適化の課題をもたらします。
提案されたアプローチは、同等のベースラインよりも堅牢なモデルを生み出す。
論文 参考訳(メタデータ) (2021-03-18T14:26:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。