論文の概要: Route-and-Reason: Scaling Large Language Model Reasoning with Reinforced Model Router
- arxiv url: http://arxiv.org/abs/2506.05901v1
- Date: Fri, 06 Jun 2025 09:18:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.399966
- Title: Route-and-Reason: Scaling Large Language Model Reasoning with Reinforced Model Router
- Title(参考訳): Route-and-Reason:強化モデルルータによる大規模言語モデル推論のスケールアップ
- Authors: Chenyang Shao, Xinyang Liu, Yutang Lin, Fengli Xu, Yong Li,
- Abstract要約: 大規模言語モデルの問題解決能力を高めるためには,多段階推論が不可欠であることが証明されている。
しかし、多くの推論ステップは比較的単純であり、より効率的な小規模言語モデルで処理できる。
異種LLM間の協調推論を可能にする新しいフレームワークであるR2-Reasonerを提案する。
- 参考スコア(独自算出の注目度): 9.580226379350737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-step reasoning has proven essential for enhancing the problem-solving capabilities of Large Language Models (LLMs) by decomposing complex tasks into intermediate steps, either explicitly or implicitly. Extending the reasoning chain at test time through deeper thought processes or broader exploration, can furthur improve performance, but often incurs substantial costs due to the explosion in token usage. Yet, many reasoning steps are relatively simple and can be handled by more efficient smaller-scale language models (SLMs). This motivates hybrid approaches that allocate subtasks across models of varying capacities. However, realizing such collaboration requires accurate task decomposition and difficulty-aware subtask allocation, which is challenging. To address this, we propose R2-Reasoner, a novel framework that enables collaborative reasoning across heterogeneous LLMs by dynamically routing sub-tasks based on estimated complexity. At the core of our framework is a Reinforced Model Router, composed of a task decomposer and a subtask allocator. The task decomposer segments complex input queries into logically ordered subtasks, while the subtask allocator assigns each subtask to the most appropriate model, ranging from lightweight SLMs to powerful LLMs, balancing accuracy and efficiency. To train this router, we introduce a staged pipeline that combines supervised fine-tuning on task-specific datasets with Group Relative Policy Optimization algorithm, enabling self-supervised refinement through iterative reinforcement learning. Extensive experiments across four challenging benchmarks demonstrate that R2-Reasoner reduces API costs by 86.85% while maintaining or surpassing baseline accuracy. Our framework paves the way for more cost-effective and adaptive LLM reasoning. The code is open-source at https://anonymous.4open.science/r/R2_Reasoner .
- Abstract(参考訳): 多段階推論は、複雑なタスクを明示的にまたは暗黙的に中間ステップに分解することで、Large Language Models(LLM)の問題解決能力を高めるために必須であることが証明されている。
より深い思考プロセスやより広範な探索を通じてテスト時の推論チェーンを拡張することで、パフォーマンスが向上する可能性があるが、トークンの使用が爆発的に増加したため、かなりのコストが発生することが多い。
しかし、多くの推論ステップは比較的単純であり、より効率的な小規模言語モデル(SLM)によって処理できる。
これは様々な能力のモデルにまたがってサブタスクを割り当てるハイブリッドアプローチを動機付けている。
しかし、このようなコラボレーションを実現するには、正確なタスクの分解と難易度を考慮したサブタスク割り当てが必要である。
そこで我々はR2-Reasonerを提案する。R2-Reasonerは不均一なLLM間の協調推論を,推定複雑性に基づいて動的にサブタスクをルーティングすることで実現する新しいフレームワークである。
フレームワークのコアにはReinforced Model Routerがあり、タスクデコンポスタとサブタスクアロケータで構成されています。
タスクデコンパイラは複雑な入力クエリを論理的に順序付けられたサブタスクにセグメントし、サブタスクアロケータは各サブタスクを最も適切なモデルに割り当てる。
このルータをトレーニングするために,タスク固有のデータセットの教師付き微調整とグループ相対ポリシー最適化アルゴリズムを組み合わせたパイプラインを導入し,反復的強化学習による自己監督的洗練を実現する。
R2-Reasonerは、ベースライン精度を維持したり超えたりしながら、APIコストを86.85%削減する。
我々のフレームワークは、よりコスト効率が高く適応的なLCM推論の道を開く。
コードはhttps://anonymous.4open.science/r/R2_Reasonerで公開されている。
関連論文リスト
- Unlocking Efficient Long-to-Short LLM Reasoning with Model Merging [17.038807261969033]
Long-to-Short (L2S) 推論は推論深度と実用効率のバランスをとることを目的としている。
モデルマージは、System 1モデルの迅速な思考能力とSystem 2モデルの方法論的推論を統合することで、コスト効率が高く堅牢な代替手段を提供する。
実験の結果,モデルマージにより平均応答長を最大55%削減できることがわかった。
論文 参考訳(メタデータ) (2025-03-26T15:34:37Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Division-of-Thoughts: Harnessing Hybrid Language Model Synergy for Efficient On-Device Agents [5.566936703366701]
Division-of-Thoughts(DoT)は、ローカルとクラウドベースの言語モデル間のシナジーを活用する共同推論フレームワークである。
DoTは平均推論時間とAPIコストを66.12%と83.57%削減し、最高のベースライン手法で同等の推論精度を達成している。
論文 参考訳(メタデータ) (2025-02-06T02:40:25Z) - Supervised Chain of Thought [5.389461633686935]
Chain of Thought (CoT)は複雑な推論タスクを解決するための有望なアプローチを提供する。
ワンプロンプト・フォー・オールアプローチは、正しい推論ステップを生成するためにモデルに重大な課題をもたらす。
タスク固有の監督が、プロンプト空間を正確にナビゲートし、最適な性能を達成するためにいかに重要であるかを示す。
論文 参考訳(メタデータ) (2024-10-18T06:25:27Z) - Duo-LLM: A Framework for Studying Adaptive Computation in Large Language Models [16.16372459671255]
大規模言語モデル(LLM)は通常、固定された計算予算を使用してトークンによって出力トークンを生成する。
LLMの各フィードフォワードネットワーク層に小さな補助モジュールを統合する新しいフレームワークを提案する。
訓練されたルータがオーラクルと異なる動作をしており、しばしば準最適解が得られることを示す。
論文 参考訳(メタデータ) (2024-10-01T16:10:21Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning [94.76546523689113]
CodePlanは、テキストコード形式の計画を生成し、追跡するフレームワークで、高いレベルの構造化された推論プロセスの概要を擬似コードで示します。
CodePlanは、洗練された推論タスク固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。
反応を直接生成するのに比べて25.1%の相対的な改善が達成されている。
論文 参考訳(メタデータ) (2024-09-19T04:13:58Z) - Decomposed Prompting: A Modular Approach for Solving Complex Tasks [55.42850359286304]
本稿では,より単純なサブタスクに分解することで,複雑なタスクを解くための分解プロンプトを提案する。
このモジュール構造は、各プロンプトを特定のサブタスクに最適化することを可能にする。
Decomposed Promptingの柔軟性とモジュラリティは、数発のプロンプトで先行作業より優れていることを示す。
論文 参考訳(メタデータ) (2022-10-05T17:28:20Z) - Controllable Dynamic Multi-Task Architectures [92.74372912009127]
本稿では,そのアーキテクチャと重みを動的に調整し,所望のタスク選択とリソース制約に適合させる制御可能なマルチタスクネットワークを提案する。
本稿では,タスク親和性と分岐正規化損失を利用した2つのハイパーネットの非交互トレーニングを提案し,入力の嗜好を取り入れ,適応重み付き木構造モデルを予測する。
論文 参考訳(メタデータ) (2022-03-28T17:56:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。