論文の概要: Confidence-Guided Stepwise Model Routing for Cost-Efficient Reasoning
- arxiv url: http://arxiv.org/abs/2511.06190v1
- Date: Sun, 09 Nov 2025 02:33:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.801638
- Title: Confidence-Guided Stepwise Model Routing for Cost-Efficient Reasoning
- Title(参考訳): コスト効率の良い推論のための信頼誘導ステップワイドモデルルーティング
- Authors: Sangmook Lee, Dohyung Kim, Hyukhun Koh, Nakyeong Yang, Kyomin Jung,
- Abstract要約: コスト効率の良い推論のための信頼誘導ステップワイドモデルルーティングを提案する。
STEERはドメインに依存しないフレームワークで、小さくて大きな言語モデル間のきめ細かいステップレベルのルーティングを実行する。
その結果,モデルルーティングのための堅牢でドメインに依存しない信号として,モデル内部信頼が確立された。
- 参考スコア(独自算出の注目度): 20.41220110321494
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advances in Large Language Models (LLMs) - particularly model scaling and test-time techniques - have greatly enhanced the reasoning capabilities of language models at the expense of higher inference costs. To lower inference costs, prior works train router models or deferral mechanisms that allocate easy queries to a small, efficient model, while forwarding harder queries to larger, more expensive models. However, these trained router models often lack robustness under domain shifts and require expensive data synthesis techniques such as Monte Carlo rollouts to obtain sufficient ground-truth routing labels for training. In this work, we propose Confidence-Guided Stepwise Model Routing for Cost-Efficient Reasoning (STEER), a domain-agnostic framework that performs fine-grained, step-level routing between smaller and larger LLMs without utilizing external models. STEER leverages confidence scores from the smaller model's logits prior to generating a reasoning step, so that the large model is invoked only when necessary. Extensive evaluations using different LLMs on a diverse set of challenging benchmarks across multiple domains such as Mathematical Reasoning, Multi-Hop QA, and Planning tasks indicate that STEER achieves competitive or enhanced accuracy while reducing inference costs (up to +20% accuracy with 48% less FLOPs compared to solely using the larger model on AIME), outperforming baselines that rely on trained external modules. Our results establish model-internal confidence as a robust, domain-agnostic signal for model routing, offering a scalable pathway for efficient LLM deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩、特にモデルスケーリングとテストタイム技術は、より高い推論コストを犠牲にして、言語モデルの推論能力を大幅に向上させた。
推論コストを下げるために、以前の作業では、より大きくて高価なモデルに厳しいクエリを転送しながら、小型で効率的なモデルに簡単なクエリを割り当てるルータモデルや遅延メカニズムを訓練していた。
しかし、これらの訓練されたルータモデルは、ドメインシフトの下では堅牢性に欠けることが多く、トレーニングに十分なグランドトラスルーティングラベルを得るためには、モンテカルロのロールアウトのような高価なデータ合成技術が必要である。
本研究では,小規模および大規模LCM間の細粒度ステップレベルのルーティングを行うドメインに依存しないフレームワークであるSTEER(Confidence-Guided Stepwise Model Routing for Cost-Efficient Reasoning)を提案する。
STEERは、推論ステップを生成する前に、より小さなモデルのロジットからの信頼性スコアを利用する。
Mathematical Reasoning、Multi-Hop QA、プランニングタスクなど、複数の領域にわたる様々な挑戦的ベンチマークで異なるLLMを使用した広範囲な評価は、STEERが競合または強化された精度を達成し、推論コストを削減し(AIMEのより大きなモデルのみを使用する場合に比べて最大で48%の精度でFLOPsを削減)、トレーニングされた外部モジュールに依存するベースラインを上回っていることを示している。
この結果から,モデルルーティングのための堅牢でドメインに依存しない信号としてモデル内部信頼が確立され,LLMの効率的な展開のためのスケーラブルな経路が提供される。
関連論文リスト
- LightRouter: Towards Efficient LLM Collaboration with Minimal Overhead [19.573553157421774]
Lightは、より大きなプールからLLMの小さなサブセットを体系的に選択、統合するために設計された新しいフレームワークである。
実験によると、光は広く使われているアンサンブルのベースラインと一致し、25%の精度向上を実現している。
本研究は、効率的なLCM選択のための実践的なアプローチを導入し、モデル組み合わせのための最適な戦略に関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2025-05-22T04:46:04Z) - Cost-Optimal Grouped-Query Attention for Long-Context Modeling [45.981681856747365]
Grouped-Query Attention(GQA)は、大規模言語モデルにおける注目層の計算コストを削減するための広く採用されている戦略である。
我々は,文脈長,モデルサイズ,GQA構成,モデル損失の関係を分析する。
コスト最適GQA構成の導出法を提案する。
論文 参考訳(メタデータ) (2025-03-12T17:50:42Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - Ranked from Within: Ranking Large Multimodal Models Without Labels [73.96543593298426]
ソフトマックス分布から導かれる不確実性スコアは,様々なタスクにまたがるランキングモデルに対して,ロバストな基礎となることを示す。
これにより、ラベルのないデータに対するLMMのランク付けが容易になり、手動のアノテーションを必要とせずに、多様なターゲットドメインのモデルを選択するための実践的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-12-09T13:05:43Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - RouteLLM: Learning to Route LLMs with Preference Data [41.687640419561504]
大きな言語モデル(LLM)は、幅広いタスクにわたって印象的な機能を示すが、どのモデルを使うかの選択は、パフォーマンスとコストのトレードオフを伴うことが多い。
推論において,より強いLLMと弱いLLMを動的に選択する効率的なルータモデルを提案する。
我々は、人間の嗜好データとデータ拡張技術を利用して、これらのルータのためのトレーニングフレームワークを開発し、性能を向上する。
論文 参考訳(メタデータ) (2024-06-26T18:10:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。