論文の概要: RADAR: Reasoning-Ability and Difficulty-Aware Routing for Reasoning LLMs
- arxiv url: http://arxiv.org/abs/2509.25426v2
- Date: Wed, 01 Oct 2025 00:34:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 12:11:26.800587
- Title: RADAR: Reasoning-Ability and Difficulty-Aware Routing for Reasoning LLMs
- Title(参考訳): RADAR:LLMの推論能力と難易度を考慮したルーティング
- Authors: Nigel Fernandez, Branislav Kveton, Ryan A. Rossi, Andrew S. Lan, Zichao Wang,
- Abstract要約: 本稿では、軽量で解釈可能でスケーラブルなルーティングフレームワークRADAR(Reasoning-Ability and Difficulty-Aware Routing)を提案する。
心理測定にインスパイアされたRADARは、さまざまな予算を持つモデル応答から異なるクエリへのアイテム応答モデルを学ぶ。
我々は8つの広く使われている推論ベンチマークについて広範な実験を行い、最先端のルーティング手法と比較してRADARの優れた性能を実証した。
- 参考スコア(独自算出の注目度): 51.88834210085435
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reasoning language models have demonstrated remarkable performance on many challenging tasks in math, science, and coding. Choosing the right reasoning model for practical deployment involves a performance and cost tradeoff at two key levels: model size and reasoning budget, where larger models and higher reasoning budget lead to better performance but with increased cost and latency. In this work, we tackle this tradeoff from the angle of model configuration routing for different queries, and present RADAR (Reasoning-Ability and Difficulty-Aware Routing), a lightweight, interpretable, and scalable routing framework. Inspired by psychometrics, RADAR learns an item response model from model responses with different budgets to different queries, with interpretable parameters including query difficulties and model-budget abilities. RADAR then routes queries with higher difficulty to model-budget pairs with higher ability, and vice versa. We conduct extensive experiments on 8 widely used challenging reasoning benchmarks, demonstrating the superior performance of RADAR compared to state-of-the-art model routing methods. RADAR also exhibits query generalization capabilities, showing strong performance on out-of-distribution queries in all benchmarks. RADAR is also scalable and can efficiently integrate additional models by dynamically selecting a small set of evaluation queries to estimate their abilities.
- Abstract(参考訳): 推論言語モデルは、数学、科学、コーディングにおける多くの困難なタスクにおいて顕著なパフォーマンスを示してきた。
モデルのサイズと推論予算 – 大きなモデルと高い推論予算がパフォーマンスの向上につながるが、コストとレイテンシの増大につながる。
本研究では、異なるクエリに対するモデル構成ルーティングの角度と、軽量で解釈可能でスケーラブルなルーティングフレームワークであるRADAR(Reasoning-Ability and Difficulty-Aware Routing)とのトレードオフに取り組む。
心理測定にインスパイアされたRADARは、さまざまな予算を持つモデル応答から、クエリ障害やモデル予算能力を含む解釈可能なパラメータを含む、さまざまなクエリへのアイテム応答モデルを学ぶ。
その後、RADARは、より難しいクエリを高機能なモデル予算ペアにルーティングする。
提案手法は,現状のモデルルーティング手法と比較して,RADARの優れた性能を示すため,広く用いられている8つの挑戦的推論ベンチマークに対して広範囲に実験を行った。
RADARはクエリの一般化機能も備えており、すべてのベンチマークにおけるアウト・オブ・ディストリビューションクエリのパフォーマンスが向上している。
RADARはまたスケーラブルで、少数の評価クエリを動的に選択し、その能力を見積もることで、追加モデルを効率的に統合することができる。
関連論文リスト
- Trade-offs in Ensembling, Merging and Routing Among Parameter-Efficient Experts [56.02203242609604]
大規模言語モデル(LLM)は、軽量アダプタで微調整され、多様なタスクにわたって強力なパフォーマンスを実現する。
異なる強みを持つ独立に訓練されたモデルを使用することで、3つの主要な戦略を通じてマルチタスク学習の可能性を示している。
私たちは、彼らのトレードオフを実証的に評価し、2つの重要な疑問に対処します。 均一なアンサンブルやマージを超えて行く利点は何ですか?そして、ルーティングの柔軟性は、その複雑さを正当化するのでしょうか?
論文 参考訳(メタデータ) (2026-03-03T21:44:11Z) - Models Under SCOPE: Scalable and Controllable Routing via Pre-hoc Reasoning [28.165465162107253]
コストと性能を予測してモデル選択を超えるルーティングフレームワークであるSCOPEを提案する。
SCOPEは、モデル名の固定に依存するのではなく、モデルがどのように同様の問題に対処するかを検索することで、推論に基づく予測を行う。
性能が優先される場合の精度を最大25.7%向上させるか、効率が重要な場合のコストを最大95.1%削減することができる。
論文 参考訳(メタデータ) (2026-01-29T21:09:36Z) - RouteMoA: Dynamic Routing without Pre-Inference Boosts Efficient Mixture-of-Agents [91.0187958746262]
RouteMoAは動的ルーティングを備えた効率的な混合エージェントフレームワークである。
軽量スコアラを使用して、クエリから粗い粒度のパフォーマンスを予測することで、初期スクリーニングを行う。
既存のモデル出力に基づいて、軽量な自己評価とクロスアセスメントによってこれらのスコアを洗練し、追加の推論なしで後部修正を提供する。
論文 参考訳(メタデータ) (2026-01-26T04:22:22Z) - ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning [103.7657839292775]
ARM-Thinkerはエージェント・マルチモーダル・リワード・モデルであり、検証された証拠で判断を下すために外部ツールを自律的に呼び出す。
ARM-Thinkerを多段階強化学習で訓練し、ツールコール決定と判定精度を協調的に最適化する。
その結果,エージェント能力は報酬モデルの精度と解釈可能性の両方を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-12-04T18:59:52Z) - Confidence-Guided Stepwise Model Routing for Cost-Efficient Reasoning [20.41220110321494]
コスト効率の良い推論のための信頼誘導ステップワイドモデルルーティングを提案する。
STEERはドメインに依存しないフレームワークで、小さくて大きな言語モデル間のきめ細かいステップレベルのルーティングを実行する。
その結果,モデルルーティングのための堅牢でドメインに依存しない信号として,モデル内部信頼が確立された。
論文 参考訳(メタデータ) (2025-11-09T02:33:08Z) - xRouter: Training Cost-Aware LLMs Orchestration System via Reinforcement Learning [104.63494870852894]
我々は,学習したルータが直接応答するか,あるいは1つ以上の外部モデルを呼び出すことができるツールコールベースのルーティングシステム x を提案する。
当社の実装には、報酬とコスト会計を含む、完全な強化学習フレームワークが含まれています。
さまざまなベンチマークで、xはコストパフォーマンスのトレードオフを強く達成します。
論文 参考訳(メタデータ) (2025-10-09T16:52:01Z) - SDAR: A Synergistic Diffusion-AutoRegression Paradigm for Scalable Sequence Generation [62.14510717860079]
本稿では, 自己回帰モデルの学習効率を, 拡散の並列推論能力で統一するSynergistic Diffusion-Autoregressionパラダイムを提案する。
SDARは、十分に訓練された自己回帰モデル(AR)を、簡潔でデータ効率のよい適応を通じてブロックワイズ拡散モデルに変換する、軽量なパラダイム変換を実行する。
この知見に基づいて、SDARは最小コストで効率的なAR-拡散変換を実現し、並列生成を可能にしながら、ARレベルのパフォーマンスを維持する。
論文 参考訳(メタデータ) (2025-10-07T17:29:28Z) - Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding [59.60915947702282]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論能力の向上に成功している。
既存のRLVR手法は、訓練データの困難さとモデルの能力のミスマッチにより、探索の非効率に悩まされることが多い。
本稿では,高効率領域に留まることの難易度を動的に調整する新しい監視支援RLVRフレームワークであるSEELEを提案する。
論文 参考訳(メタデータ) (2025-09-08T17:36:21Z) - Beyond the Trade-off: Self-Supervised Reinforcement Learning for Reasoning Models' Instruction Following [37.69688837528397]
推論モデルは複雑な問題解決に優れるが、推論能力とそれに続く命令の間のトレードオフを示す。
本稿では,推論モデルの内部信号を利用した自己教師付きRLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-04T07:48:59Z) - Route to Reason: Adaptive Routing for LLM and Reasoning Strategy Selection [7.045509749924679]
Route-To-Reason(RTR)は、予算制約下でのタスク難易度に応じて、LMと推論戦略の両方を動的に割り当てる新しい統一ルーティングフレームワークである。
RTRは、専門家モデルと推論戦略の両方の圧縮された表現を学び、推論時に共同で適応的な選択を可能にする。
論文 参考訳(メタデータ) (2025-05-26T02:53:17Z) - Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。
データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文 参考訳(メタデータ) (2024-11-30T10:56:30Z) - DoRA: Enhancing Parameter-Efficient Fine-Tuning with Dynamic Rank Distribution [28.589498108609202]
Low-Rank Adaptation (LoRA) は、ウェイト行列の差分パラメータ予算要件を無視したバイパスフレームワークに依存している。
DoRAは、高ランクのLoRA層を構造化シングルランクコンポーネントに分解し、パラメータ予算の動的プルーニングを可能にする。
実験結果から,LORAやフルモデルファインチューニングと比較して,DoRAの競争性能が向上することが示された。
論文 参考訳(メタデータ) (2024-05-27T17:02:27Z) - Deep Reinforcement Learning from Hierarchical Preference Design [99.46415116087259]
本稿では,特定の構造を利用することにより,報酬設計プロセスの容易性を示す。
シナリオのための階層的な報酬モデリングフレームワーク -- HERONを提案する。 (I) フィードバック信号は自然に階層構造を呈し、 (II) 報酬は希少であるが、政策学習を支援するためにあまり重要でないサロゲートフィードバックを持つ。
論文 参考訳(メタデータ) (2023-09-06T00:44:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。