論文の概要: RADAR: Reasoning-Ability and Difficulty-Aware Routing for Reasoning LLMs
- arxiv url: http://arxiv.org/abs/2509.25426v2
- Date: Wed, 01 Oct 2025 00:34:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 12:11:26.800587
- Title: RADAR: Reasoning-Ability and Difficulty-Aware Routing for Reasoning LLMs
- Title(参考訳): RADAR:LLMの推論能力と難易度を考慮したルーティング
- Authors: Nigel Fernandez, Branislav Kveton, Ryan A. Rossi, Andrew S. Lan, Zichao Wang,
- Abstract要約: 本稿では、軽量で解釈可能でスケーラブルなルーティングフレームワークRADAR(Reasoning-Ability and Difficulty-Aware Routing)を提案する。
心理測定にインスパイアされたRADARは、さまざまな予算を持つモデル応答から異なるクエリへのアイテム応答モデルを学ぶ。
我々は8つの広く使われている推論ベンチマークについて広範な実験を行い、最先端のルーティング手法と比較してRADARの優れた性能を実証した。
- 参考スコア(独自算出の注目度): 51.88834210085435
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reasoning language models have demonstrated remarkable performance on many challenging tasks in math, science, and coding. Choosing the right reasoning model for practical deployment involves a performance and cost tradeoff at two key levels: model size and reasoning budget, where larger models and higher reasoning budget lead to better performance but with increased cost and latency. In this work, we tackle this tradeoff from the angle of model configuration routing for different queries, and present RADAR (Reasoning-Ability and Difficulty-Aware Routing), a lightweight, interpretable, and scalable routing framework. Inspired by psychometrics, RADAR learns an item response model from model responses with different budgets to different queries, with interpretable parameters including query difficulties and model-budget abilities. RADAR then routes queries with higher difficulty to model-budget pairs with higher ability, and vice versa. We conduct extensive experiments on 8 widely used challenging reasoning benchmarks, demonstrating the superior performance of RADAR compared to state-of-the-art model routing methods. RADAR also exhibits query generalization capabilities, showing strong performance on out-of-distribution queries in all benchmarks. RADAR is also scalable and can efficiently integrate additional models by dynamically selecting a small set of evaluation queries to estimate their abilities.
- Abstract(参考訳): 推論言語モデルは、数学、科学、コーディングにおける多くの困難なタスクにおいて顕著なパフォーマンスを示してきた。
モデルのサイズと推論予算 – 大きなモデルと高い推論予算がパフォーマンスの向上につながるが、コストとレイテンシの増大につながる。
本研究では、異なるクエリに対するモデル構成ルーティングの角度と、軽量で解釈可能でスケーラブルなルーティングフレームワークであるRADAR(Reasoning-Ability and Difficulty-Aware Routing)とのトレードオフに取り組む。
心理測定にインスパイアされたRADARは、さまざまな予算を持つモデル応答から、クエリ障害やモデル予算能力を含む解釈可能なパラメータを含む、さまざまなクエリへのアイテム応答モデルを学ぶ。
その後、RADARは、より難しいクエリを高機能なモデル予算ペアにルーティングする。
提案手法は,現状のモデルルーティング手法と比較して,RADARの優れた性能を示すため,広く用いられている8つの挑戦的推論ベンチマークに対して広範囲に実験を行った。
RADARはクエリの一般化機能も備えており、すべてのベンチマークにおけるアウト・オブ・ディストリビューションクエリのパフォーマンスが向上している。
RADARはまたスケーラブルで、少数の評価クエリを動的に選択し、その能力を見積もることで、追加モデルを効率的に統合することができる。
関連論文リスト
- Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding [59.60915947702282]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論能力の向上に成功している。
既存のRLVR手法は、訓練データの困難さとモデルの能力のミスマッチにより、探索の非効率に悩まされることが多い。
本稿では,高効率領域に留まることの難易度を動的に調整する新しい監視支援RLVRフレームワークであるSEELEを提案する。
論文 参考訳(メタデータ) (2025-09-08T17:36:21Z) - Beyond the Trade-off: Self-Supervised Reinforcement Learning for Reasoning Models' Instruction Following [37.69688837528397]
推論モデルは複雑な問題解決に優れるが、推論能力とそれに続く命令の間のトレードオフを示す。
本稿では,推論モデルの内部信号を利用した自己教師付きRLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-04T07:48:59Z) - Route to Reason: Adaptive Routing for LLM and Reasoning Strategy Selection [7.045509749924679]
Route-To-Reason(RTR)は、予算制約下でのタスク難易度に応じて、LMと推論戦略の両方を動的に割り当てる新しい統一ルーティングフレームワークである。
RTRは、専門家モデルと推論戦略の両方の圧縮された表現を学び、推論時に共同で適応的な選択を可能にする。
論文 参考訳(メタデータ) (2025-05-26T02:53:17Z) - Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。
データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文 参考訳(メタデータ) (2024-11-30T10:56:30Z) - DoRA: Enhancing Parameter-Efficient Fine-Tuning with Dynamic Rank Distribution [28.589498108609202]
Low-Rank Adaptation (LoRA) は、ウェイト行列の差分パラメータ予算要件を無視したバイパスフレームワークに依存している。
DoRAは、高ランクのLoRA層を構造化シングルランクコンポーネントに分解し、パラメータ予算の動的プルーニングを可能にする。
実験結果から,LORAやフルモデルファインチューニングと比較して,DoRAの競争性能が向上することが示された。
論文 参考訳(メタデータ) (2024-05-27T17:02:27Z) - Deep Reinforcement Learning from Hierarchical Preference Design [99.46415116087259]
本稿では,特定の構造を利用することにより,報酬設計プロセスの容易性を示す。
シナリオのための階層的な報酬モデリングフレームワーク -- HERONを提案する。 (I) フィードバック信号は自然に階層構造を呈し、 (II) 報酬は希少であるが、政策学習を支援するためにあまり重要でないサロゲートフィードバックを持つ。
論文 参考訳(メタデータ) (2023-09-06T00:44:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。