論文の概要: AdaCtrl: Towards Adaptive and Controllable Reasoning via Difficulty-Aware Budgeting
- arxiv url: http://arxiv.org/abs/2505.18822v1
- Date: Sat, 24 May 2025 18:46:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.681289
- Title: AdaCtrl: Towards Adaptive and Controllable Reasoning via Difficulty-Aware Budgeting
- Title(参考訳): AdaCtrl: 難易度を考慮した予算化による適応性と制御可能な推論を目指して
- Authors: Shijue Huang, Hongru Wang, Wanjun Zhong, Zhaochen Su, Jiazhan Feng, Bowen Cao, Yi R. Fung,
- Abstract要約: AdaCtrlは、難しい適応推論の予算配分をサポートする新しいフレームワークである。
自己評価問題難易度に基づいて推論長を動的に調整する。
AdaCtrlは、推論予算の正確なユーザコントロールを可能にし、特定のニーズを満たすように調整されたレスポンスを可能にする。
- 参考スコア(独自算出の注目度): 23.004467211806467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern large reasoning models demonstrate impressive problem-solving capabilities by employing sophisticated reasoning strategies. However, they often struggle to balance efficiency and effectiveness, frequently generating unnecessarily lengthy reasoning chains for simple problems. In this work, we propose AdaCtrl, a novel framework to support both difficulty-aware adaptive reasoning budget allocation and explicit user control over reasoning depth. AdaCtrl dynamically adjusts its reasoning length based on self-assessed problem difficulty, while also allowing users to manually control the budget to prioritize either efficiency or effectiveness. This is achieved through a two-stage training pipeline: an initial cold-start fine-tuning phase to instill the ability to self-aware difficulty and adjust reasoning budget, followed by a difficulty-aware reinforcement learning (RL) stage that refines the model's adaptive reasoning strategies and calibrates its difficulty assessments based on its evolving capabilities during online training. To enable intuitive user interaction, we design explicit length-triggered tags that function as a natural interface for budget control. Empirical results show that AdaCtrl adapts reasoning length based on estimated difficulty, compared to the standard training baseline that also incorporates fine-tuning and RL, it yields performance improvements and simultaneously reduces response length by 10.06% and 12.14% on the more challenging AIME2024 and AIME2025 datasets, which require elaborate reasoning, and by 62.05% and 91.04% on the MATH500 and GSM8K datasets, where more concise responses are sufficient. Furthermore, AdaCtrl enables precise user control over the reasoning budget, allowing for tailored responses to meet specific needs.
- Abstract(参考訳): 現代の大規模推論モデルは、洗練された推論戦略を採用することで、目覚ましい問題解決能力を示している。
しかし、それらは効率と効率のバランスに苦しむことが多く、単純な問題に対して不要に長い推論連鎖を生成することが多い。
本研究では,AdaCtrlを提案する。AdaCtrlは,アダプティブ推論予算配分と,アダプティブ推論深度に対する明示的なユーザ制御の両方をサポートする新しいフレームワークである。
AdaCtrlは、自己評価された問題難易度に基づいて推論長を動的に調整すると同時に、ユーザが手動で予算を制御して効率と有効性の両方を優先順位付けすることを可能にする。
これは、2段階のトレーニングパイプラインによって達成される: 最初のコールドスタートの微調整フェーズは、自己認識の難しさと推論予算の調整を具現化し、続いて、モデルの適応的推論戦略を洗練させ、オンライントレーニング中に進化する能力に基づいて困難評価を校正する困難対応強化学習(RL)ステージが続く。
直感的なユーザインタラクションを実現するために,予算管理のための自然なインターフェースとして機能する,明示的な長さトリガータグを設計する。
実験の結果、AdaCtrlは推定難易度に基づいて推論長を適応し、微調整とRLも組み込んだ標準トレーニングベースラインと比較して、より難しいAIME2024とAIME2025データセットでは10.06%と12.14%、より簡潔な推論が必要なMATH500とGSM8Kデータセットでは62.05%と91.04%の精度で応答長を10.06%と12.14%削減できることがわかった。
さらに、AdaCtrlは推論予算の正確なユーザコントロールを可能にし、特定のニーズを満たすように調整されたレスポンスを可能にする。
関連論文リスト
- Route to Reason: Adaptive Routing for LLM and Reasoning Strategy Selection [7.045509749924679]
Route-To-Reason(RTR)は、予算制約下でのタスク難易度に応じて、LMと推論戦略の両方を動的に割り当てる新しい統一ルーティングフレームワークである。
RTRは、専門家モデルと推論戦略の両方の圧縮された表現を学び、推論時に共同で適応的な選択を可能にする。
論文 参考訳(メタデータ) (2025-05-26T02:53:17Z) - PATS: Process-Level Adaptive Thinking Mode Switching [53.53401063490537]
現在の大言語モデル(LLM)は、通常、難易度に関わらず、すべての質問に対して、単純または複雑に固定された推論戦略を採用する。
このようなタスクと推論プロセスの複雑さの変化の無視は、パフォーマンスと効率のバランスを損なう。
既存の手法では, 難易度が異なる問題に対処するために, 学習不要な高速スロー思考システムを導入しようとするが, 厳密な解レベルの戦略調整によって制限される。
プロセスレベル適応思考モードスイッチング(PATS)という新しい推論パラダイムを提案し,各ステップの難易度に基づいてLLMが推論戦略を動的に調整し,そのバランスを最適化する。
論文 参考訳(メタデータ) (2025-05-25T17:58:50Z) - Incentivizing Dual Process Thinking for Efficient Large Language Model Reasoning [75.04643265875072]
大規模推論モデル(LRM)は複雑な推論タスクに対して強い性能を示してきたが、しばしば過度に考えることに悩まされている。
認知科学における二重プロセス理論に着想を得て,適応認知政策最適化を提案する。
ACPOは、適応的な認知アロケーションと動的システムスイッチによって、LRMの効率的な推論を可能にする。
論文 参考訳(メタデータ) (2025-05-22T07:15:08Z) - AdaCoT: Pareto-Optimal Adaptive Chain-of-Thought Triggering via Reinforcement Learning [30.265984245328124]
Chain-of-Thoughtは、すべてのクエリに対する長い推論ステップを無差別に生成する。
AdaCoT(Adaptive Chain-of-Thought)は、LLMがCoTを呼び出すタイミングを適応的に決定できる新しいフレームワークである。
重要な技術的貢献はSLM(Selective Loss Masking)であり、決定境界崩壊の防止を目的としている。
論文 参考訳(メタデータ) (2025-05-17T08:27:00Z) - SelfBudgeter: Adaptive Token Allocation for Efficient LLM Reasoning [29.64638547097158]
SelfBudgeterは、効率的な推論のための自己適応的な制御可能な推論戦略である。
提案手法は, 出力長を削減しつつ, 精度を効果的に維持できる強化学習用GPROを提案する。
実験の結果、自己予算は問題複雑さに応じて合理的に予算を割り当てることができることが示された。
論文 参考訳(メタデータ) (2025-05-16T14:08:04Z) - Scalable Chain of Thoughts via Elastic Reasoning [61.75753924952059]
Elastic Reasoningは、スケーラブルな思考の連鎖のための新しいフレームワークである。
推論は、独立して割り当てられた予算で、思考と解決の2つのフェーズに分けられる。
我々のアプローチは、制約のない設定でもより簡潔で効率的な推論をもたらす。
論文 参考訳(メタデータ) (2025-05-08T15:01:06Z) - Fast or Better? Balancing Accuracy and Cost in Retrieval-Augmented Generation with Flexible User Control [52.405085773954596]
Retrieval-Augmented Generation (RAG) は、大規模言語モデル幻覚を緩和するための強力なアプローチとして登場した。
既存のRAGフレームワークは、しばしば無差別に検索を適用し、非効率な再検索につながる。
本稿では,精度・コストのトレードオフを動的に調整できる新しいユーザ制御可能なRAGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:56:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。