論文の概要: Policy-Guided Stepwise Model Routing for Cost-Effective Reasoning
- arxiv url: http://arxiv.org/abs/2605.06116v1
- Date: Thu, 07 May 2026 12:26:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.766133
- Title: Policy-Guided Stepwise Model Routing for Cost-Effective Reasoning
- Title(参考訳): 費用効果推論のための政策誘導ステップワイドモデルルーティング
- Authors: Wenwen Si, Insup Lee, Osbert Bastani,
- Abstract要約: 推論時間計算は大きな言語モデル(LLM)の性能を大幅に向上させた。
一つの解決策は、中間連鎖状態(CoT)を異なる大きさの言語モデルにルートすることである。
我々は、制約付き意思決定問題として、段階的にルーティングを定式化する。
- 参考スコア(独自算出の注目度): 29.183252659668696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inference-time computation has greatly enhanced the performance of large language models (LLMs) on challenging reasoning tasks, but this strategy can incur high inference costs. One solution is to route intermediate chain-of-thought (CoT) states to language models of different sizes; however, existing approaches rely on handcrafted routing strategies that limit performance, or on training large process reward models that may be infeasible in many applications. We formulate stepwise model routing as a constrained decision-making problem, which we solve by training a small control policy using reinforcement learning in conjunction with threshold calibration to tune the performance-efficiency tradeoff. We validate our method on three math benchmarks (GSM8K, MATH500, and OmniMath) on both open and closed models. Our method consistently improves the accuracy-cost tradeoff compared to handcrafted approaches, while achieving a comparable tradeoff to methods that require training large process reward models.
- Abstract(参考訳): 推論時間計算は大規模言語モデル(LLM)の性能を大幅に向上させたが、この戦略は高い推論コストを発生させる可能性がある。
一つの解決策は、中間チェーン・オブ・シンクレット(CoT)ステートを異なる大きさの言語モデルにルーティングすることだが、既存のアプローチは、パフォーマンスを制限する手作りのルーティング戦略や、多くのアプリケーションで実現不可能な大規模なプロセス報酬モデルのトレーニングに依存している。
そこで我々は,制約付き意思決定問題として段階的モデルルーティングを定式化し,強化学習としきい値校正を併用して小さな制御ポリシーを訓練し,性能効率のトレードオフを調整した。
本手法は,GSM8K,MATH500,OmniMathの3つのベンチマークで,オープンモデルとクローズドモデルの両方で検証する。
提案手法は手作りの手法に比べて精度とコストのトレードオフを常に改善する一方で,大規模プロセス報酬モデルの訓練を必要とする手法と同等のトレードオフを実現する。
関連論文リスト
- TRIM: Hybrid Inference via Targeted Stepwise Routing in Multi-Step Reasoning Tasks [26.198066761026297]
現在のメソッドはクエリ全体を1つのモデルに割り当て、すべての推論を1つのモデルに等しいものとして扱います。
我々は,全ての多段階推論タスクを処理する新しいモデルを提案する。
簡単なしきい値からより表現力のあるルーティングポリシまで,さまざまな戦略を開発しています。
論文 参考訳(メタデータ) (2026-01-15T10:06:06Z) - CONCUR: A Framework for Continual Constrained and Unconstrained Routing [79.85419373937765]
AIタスクは複雑さが異なり、異なる計算戦略で対処するのが最善である。
これまでのほとんどのメソッドは、すべての戦略で単一のモデルをトレーニングすることで、ルーティングフレームワークを構築していました。
制約付きルーティングと制約なしルーティングの両方をサポートする連続的なルーティングフレームワークであるCONCURを提案する。
論文 参考訳(メタデータ) (2025-12-10T07:30:13Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - Route to Reason: Adaptive Routing for LLM and Reasoning Strategy Selection [7.045509749924679]
Route-To-Reason(RTR)は、予算制約下でのタスク難易度に応じて、LMと推論戦略の両方を動的に割り当てる新しい統一ルーティングフレームワークである。
RTRは、専門家モデルと推論戦略の両方の圧縮された表現を学び、推論時に共同で適応的な選択を可能にする。
論文 参考訳(メタデータ) (2025-05-26T02:53:17Z) - Reinforcement Learning for Machine Learning Model Deployment: Evaluating Multi-Armed Bandits in ML Ops Environments [0.0]
本稿では,強化学習(RL)に基づくモデル管理が,展開決定をより効果的に管理できるかどうかを検討する。
当社のアプローチは、デプロイされたモデルを継続的に評価し、パフォーマンスの低いモデルをリアルタイムでロールバックすることで、より適応的な運用環境を実現する。
この結果から,RLベースのモデル管理は,自動化を向上し,手作業による介入への依存を軽減し,デプロイ後のモデル障害に伴うリスクを軽減することが示唆された。
論文 参考訳(メタデータ) (2025-03-28T16:42:21Z) - FTP: A Fine-grained Token-wise Pruner for Large Language Models via Token Routing [17.01412432658081]
大規模言語モデル(LLM)は、法則を拡張することによって、様々なタスクにおいて優れた性能を示す。
重要でないトークンを適応的に識別する学習可能なルータを提案する。
提案手法は,既存の刈り込み手法を超越して,最先端(SOTA)刈り込み結果を実現する。
論文 参考訳(メタデータ) (2024-12-16T07:09:46Z) - Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [49.362750475706235]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - Towards Efficient Pareto Set Approximation via Mixture of Experts Based Model Fusion [53.33473557562837]
大規模深層ニューラルネットワークに対する多目的最適化問題を解くことは、損失ランドスケープの複雑さと高価な計算コストのために難しい課題である。
本稿では,専門家(MoE)をベースとしたモデル融合を用いて,この問題を実用的でスケーラブルに解決する手法を提案する。
特殊な単一タスクモデルの重みをまとめることで、MoEモジュールは複数の目的間のトレードオフを効果的に捉えることができる。
論文 参考訳(メタデータ) (2024-06-14T07:16:18Z) - Task-optimal data-driven surrogate models for eNMPC via differentiable simulation and optimization [42.72938925647165]
特定の制御タスクにおいて最適な性能を示すために,クープマンシュロゲートモデルのエンドツーエンド学習法を提案する。
我々は,既存の経済非線形モデル予測制御(eNMPC)のケーススタディにおいて,他のトレーニングアルゴリズムと比較することにより,本手法の性能を評価する。
論文 参考訳(メタデータ) (2024-03-21T14:28:43Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。