論文の概要: Self-Route: Automatic Mode Switching via Capability Estimation for Efficient Reasoning
- arxiv url: http://arxiv.org/abs/2505.20664v1
- Date: Tue, 27 May 2025 03:18:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.379675
- Title: Self-Route: Automatic Mode Switching via Capability Estimation for Efficient Reasoning
- Title(参考訳): 自己経路:効率的な推論のためのキャパビリティ推定によるモードスイッチング
- Authors: Yang He, Xiao Ding, Bibo Cai, Yufei Zhang, Kai Xiong, Zhouhao Sun, Bing Qin, Ting Liu,
- Abstract要約: Self-Routeは、一般的な推論モードと推論モードを自動的に選択する動的推論フレームワークである。
トークン消費量を30~55%削減しながら,自己ルートが推論モデルに匹敵する精度を実現していることを示す。
- 参考スコア(独自算出の注目度): 36.470695895695044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While reasoning-augmented large language models (RLLMs) significantly enhance complex task performance through extended reasoning chains, they inevitably introduce substantial unnecessary token consumption, particularly for simpler problems where Short Chain-of-Thought (Short CoT) suffices. This overthinking phenomenon leads to inefficient resource usage without proportional accuracy gains. To address this issue, we propose Self-Route, a dynamic reasoning framework that automatically selects between general and reasoning modes based on model capability estimation. Our approach introduces a lightweight pre-inference stage to extract capability-aware embeddings from hidden layer representations, enabling real-time evaluation of the model's ability to solve problems. We further construct Gradient-10K, a model difficulty estimation-based dataset with dense complexity sampling, to train the router for precise capability boundary detection. Extensive experiments demonstrate that Self-Route achieves comparable accuracy to reasoning models while reducing token consumption by 30-55\% across diverse benchmarks. The proposed framework demonstrates consistent effectiveness across models with different parameter scales and reasoning paradigms, highlighting its general applicability and practical value.
- Abstract(参考訳): 推論強化された大規模言語モデル(RLLM)は、拡張された推論チェーンを通じて複雑なタスク性能を著しく向上させるが、特にショート・チェーン・オブ・ソート(ショート・コート)が十分であるような単純な問題に対して、必然的に不要なトークン消費を導入する。
この過度に考え抜かれた現象は、比例精度の上昇を伴わない非効率な資源利用につながる。
この問題に対処するため,モデル能力推定に基づいて,一般的な推論モードと推論モードを自動的に選択する動的推論フレームワークであるSelf-Routeを提案する。
提案手法では,隠れ層表現から機能認識型埋め込みを抽出し,モデルが抱える問題解決能力のリアルタイム評価を可能にする。
さらに,重み付き複雑性サンプリングを用いたモデル難易度推定ベースデータセットであるGradient-10Kを構築し,正確な機能境界検出のためにルータを訓練する。
大規模な実験では、Self-Routeは推論モデルに匹敵する精度を達成し、さまざまなベンチマークでトークン消費量を30~55倍に削減している。
提案フレームワークは,パラメータ尺度と推論パラダイムの異なるモデル間で一貫した有効性を示し,その汎用性と実用的価値を強調した。
関連論文リスト
- LIMOPro: Reasoning Refinement for Efficient and Effective Test-time Scaling [29.721108461390973]
PIR(Perplexity-based Importance Refinement)は,各推論ステップの重要性を定量的に評価するフレームワークである。
PIRは、プログレッシブ推論コンポーネントを保持しながら、低重要機能ステップのみを特定し、選択的にプーンする。
我々のアプローチは、異なるモデルサイズ、データソース、トークン予算にまたがる強力な一般化可能性を示す。
論文 参考訳(メタデータ) (2025-05-25T15:17:57Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - SelfBudgeter: Adaptive Token Allocation for Efficient LLM Reasoning [29.64638547097158]
SelfBudgeterは、効率的な推論のための自己適応的な制御可能な推論戦略である。
提案手法は, 出力長を削減しつつ, 精度を効果的に維持できる強化学習用GPROを提案する。
実験の結果、自己予算は問題複雑さに応じて合理的に予算を割り当てることができることが示された。
論文 参考訳(メタデータ) (2025-05-16T14:08:04Z) - Learning When to Think: Shaping Adaptive Reasoning in R1-Style Models via Multi-Stage RL [19.731871225975926]
大規模推論モデル(LRM)は、最終的な答えを生成する前に、明示的でステップバイステップの推論シーケンスを生成するのに熟練している。
この過度に考える問題に対処するため、適応的思考能力を備えたLEMの装備方法について検討する。
推論ポリシーを段階的に最適化する多段階強化学習フレームワークであるAutoThinkを提案する。
論文 参考訳(メタデータ) (2025-05-16T04:01:57Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - Stepwise Perplexity-Guided Refinement for Efficient Chain-of-Thought Reasoning in Large Language Models [56.37421741507468]
CoT推論は大規模言語モデル(LLM)の性能を大幅に向上させた。
本稿では,その重要性の尺度としてパープレキシティを用いた批判的推論ステップの同定手法を提案する。
論文 参考訳(メタデータ) (2025-02-18T20:04:51Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。