論文の概要: e1: Learning Adaptive Control of Reasoning Effort
- arxiv url: http://arxiv.org/abs/2510.27042v1
- Date: Thu, 30 Oct 2025 23:12:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:15.929768
- Title: e1: Learning Adaptive Control of Reasoning Effort
- Title(参考訳): e1:Reasoning Effortの適応制御学習
- Authors: Michael Kleinman, Matthew Trager, Alessandro Achille, Wei Xia, Stefano Soatto,
- Abstract要約: AIモデルの思考予算の増大は、精度を大幅に向上させるが、すべての質問が同じ量の推論を保証しているわけではない。
ユーザは、アウトプットの品質を、レイテンシやコストに対してどのように評価するかによって、さまざまな理由付けの労力を割り当てる傾向があります。
本稿では,ユーザが指定したトークン数を用いてモデルを学習する自己適応型強化学習手法であるAdaptive Effort Controlを提案する。
- 参考スコア(独自算出の注目度): 88.51897900019485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Increasing the thinking budget of AI models can significantly improve accuracy, but not all questions warrant the same amount of reasoning. Users may prefer to allocate different amounts of reasoning effort depending on how they value output quality versus latency and cost. To leverage this tradeoff effectively, users need fine-grained control over the amount of thinking used for a particular query, but few approaches enable such control. Existing methods require users to specify the absolute number of desired tokens, but this requires knowing the difficulty of the problem beforehand to appropriately set the token budget for a query. To address these issues, we propose Adaptive Effort Control, a self-adaptive reinforcement learning method that trains models to use a user-specified fraction of tokens relative to the current average chain-of-thought length for each query. This approach eliminates dataset- and phase-specific tuning while producing better cost-accuracy tradeoff curves compared to standard methods. Users can dynamically adjust the cost-accuracy trade-off through a continuous effort parameter specified at inference time. We observe that the model automatically learns to allocate resources proportionally to the task difficulty and, across model scales ranging from 1.5B to 32B parameters, our approach enables approximately 3x reduction in chain-of-thought length while maintaining or improving performance relative to the base model used for RL training.
- Abstract(参考訳): AIモデルの思考予算の増大は、精度を大幅に向上させるが、すべての質問が同じ量の推論を保証しているわけではない。
ユーザは、アウトプットの品質を、レイテンシやコストに対してどのように評価するかによって、さまざまな理由付けの労力を割り当てる傾向があります。
このトレードオフを効果的に活用するには、ユーザーは特定のクエリで使用される思考量を細かく制御する必要があるが、そのような制御を可能にするアプローチは少ない。
既存のメソッドでは、ユーザーは希望するトークンの絶対数を指定する必要があるが、クエリのトークン予算を適切に設定するためには、事前に問題の難しさを知る必要がある。
これらの問題に対処するために,各クエリの平均チェーン長に対して,ユーザが指定したトークンの分数を使用するようにモデルを訓練する自己適応型強化学習手法であるAdaptive Effort Controlを提案する。
このアプローチでは、データセットやフェーズ固有のチューニングを排除し、標準手法に比べてコスト-精度のトレードオフ曲線が向上する。
ユーザは推論時に指定された継続的な作業パラメータを通じて、コスト-正確性のトレードオフを動的に調整できる。
提案手法は,タスクの難易度に比例して資源を割り当てることを自動的に学習し,1.5Bから32Bパラメータのモデルスケールにわたって,RLトレーニングに使用するベースモデルに対する性能を維持・改善しながら,チェーン・オブ・シント長の約3倍の削減を可能にする。
関連論文リスト
- Think Right: Learning to Mitigate Under-Over Thinking via Adaptive, Attentive Compression [68.69801176669843]
本稿では,冗長なステップを誘発し,難易度を推定するオンラインポストトレーニングRL手法を提案する。
TRAAC(Think Right with Adaptive, Attentive Compression)は、絶対精度が平均8.4%向上する。
我々のモデルは数学データセットに基づいて訓練されているが、分布外データセットの精度と効率性を示す。
論文 参考訳(メタデータ) (2025-10-02T02:00:20Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - Self-Route: Automatic Mode Switching via Capability Estimation for Efficient Reasoning [36.470695895695044]
Self-Routeは、一般的な推論モードと推論モードを自動的に選択する動的推論フレームワークである。
トークン消費量を30~55%削減しながら,自己ルートが推論モデルに匹敵する精度を実現していることを示す。
論文 参考訳(メタデータ) (2025-05-27T03:18:31Z) - ARM: Adaptive Reasoning Model [52.955386431182724]
本稿では,そのタスクに基づいて適切なフォーマットを適応的に選択できる推論モデルであるAdaptive Reasoning Model (ARM)を提案する。
Ada-GRPOはARMが高いトークン効率を実現し、Long CoTのみに依存するモデルに匹敵するパフォーマンスを維持しながら、トークンを平均30%、最大70%削減する。
論文 参考訳(メタデータ) (2025-05-26T17:38:50Z) - AdaCtrl: Towards Adaptive and Controllable Reasoning via Difficulty-Aware Budgeting [23.004467211806467]
AdaCtrlは、難しい適応推論の予算配分をサポートする新しいフレームワークである。
自己評価問題難易度に基づいて推論長を動的に調整する。
AdaCtrlは、推論予算の正確なユーザコントロールを可能にし、特定のニーズを満たすように調整されたレスポンスを可能にする。
論文 参考訳(メタデータ) (2025-05-24T18:46:50Z) - SelfBudgeter: Adaptive Token Allocation for Efficient LLM Reasoning [43.91094438704087]
SelfBudgeterは、アダプティブな制御可能な推論フレームワークで、推論の前に予算推定メカニズムを組み込む。
本稿では,問題複雑度に応じて予算を動的に割り当てることにより,平均応答長61%の圧縮が得られることを示す。
論文 参考訳(メタデータ) (2025-05-16T14:08:04Z) - Fast or Better? Balancing Accuracy and Cost in Retrieval-Augmented Generation with Flexible User Control [52.405085773954596]
Retrieval-Augmented Generationは、大規模な言語モデル幻覚を緩和するための強力なアプローチとして登場した。
既存のRAGフレームワークは、しばしば無差別に検索を適用し、非効率な再検索につながる。
本稿では,精度・コストのトレードオフを動的に調整できる新しいユーザ制御可能なRAGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:56:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。