論文の概要: CODA: Difficulty-Aware Compute Allocation for Adaptive Reasoning
- arxiv url: http://arxiv.org/abs/2603.08659v1
- Date: Mon, 09 Mar 2026 17:37:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:16.613478
- Title: CODA: Difficulty-Aware Compute Allocation for Adaptive Reasoning
- Title(参考訳): CODA:適応推論のためのコンピュータ配置の難しさ
- Authors: Siye Wu, Jian Xie, Yikai Zhang, Yanghua Xiao,
- Abstract要約: 単純な問題において、推論は不当に高いコストで最小限の精度のゲインをもたらす。
これは適応推論を動機付け、動的に推論深度を困難に整合させる。
我々はCODA (Allocation by Difficulty) を提案する。
CODAは高い精度を維持しながらトークンコストを60%以上削減しますが、ハードタスクではパフォーマンスを最大化するためにより多くのロールアウトをインセンティブにします。
- 参考スコア(独自算出の注目度): 45.97014851622867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of large reasoning models demonstrates that scaling inference-time compute significantly enhances performance on complex tasks. However, it often falls into another trap: overthinking simple problems, where repetitive rationales yield minimal accuracy gains at a disproportionately high cost. This motivates adaptive reasoning: dynamically aligning reasoning depth with instance difficulty. In this paper, we study adaptive reasoning from an optimality perspective, formalizing it as a utility maximization problem where tokens are allocated until the marginal accuracy gain falls below the incremental cost. Based on this, we propose CODA (Compute Allocation by Difficulty Awareness), a method that operationalizes this principle by allocating tokens via a policy-internal difficulty signal. Specifically, CODA estimates difficulty via group-based rollouts and maps it to two non-negative gates that modulate a length-dependent shaping term on top of the binary base reward. The easy-side gate penalizes verbosity on simple instances, whereas the hard-side gate encourages more deliberative rollouts on challenging ones. Across model scales and benchmarks, CODA achieves adaptive reasoning without external annotations or user-provided budgets: on easy tasks, CODA reduces token costs by over 60% while maintaining strong accuracy, whereas on hard tasks it incentivizes more deliberative rollouts to maximize performance.
- Abstract(参考訳): 大きな推論モデルの出現は、推論時間計算のスケーリングが複雑なタスクのパフォーマンスを大幅に向上させることを示す。
しかし、それはしばしば別の罠に陥る: 単純な問題を過度に考え、反復的合理性は不当に高いコストで最小限の精度のゲインをもたらす。
これは適応推論を動機付け、動的に推論深度をインスタンスの難易度と整合させる。
本稿では,最適性の観点から適応推論について検討し,限界精度が漸増コスト以下になるまでトークンを割り当てるユーティリティ最大化問題として定式化する。
そこで本研究では,CODA(Compute Allocation by Difficulty Awareness)を提案する。
特にCODAは、グループベースのロールアウトを通じて難易度を推定し、2つの非負のゲートにマップし、二進法ベース報酬の上に長さ依存のシェーピング項を変調する。
易い側門は単純な例で冗長性を罰し、一方硬い側門は難易度の高いものに対してより熟考的なロールアウトを奨励する。
モデルスケールとベンチマーク全体にわたって、CODAは外部アノテーションやユーザが提供する予算なしで適応的な推論を実現している。簡単なタスクでは、CODAはトークンコストを60%以上削減し、高い精度を維持しながら、ハードタスクではパフォーマンスを最大化するためにより議論的なロールアウトを動機付けている。
関連論文リスト
- Compress the Easy, Explore the Hard: Difficulty-Aware Entropy Regularization for Efficient LLM Reasoning [39.72119774004103]
CoT(Chain-of-Thought)は、複雑な推論タスクに取り組むために、LLM(Large Language Models)を実質的に強化した。
明示的な推論ステップの冗長な性質は、推論の遅延と計算コストを禁止し、現実のデプロイメントを制限します。
本稿では,RLに基づく効率的な推論手法であるCEEH(Explore Harding)を提案する。
論文 参考訳(メタデータ) (2026-02-26T05:47:30Z) - Think Dense, Not Long: Dynamic Decoupled Conditional Advantage for Efficient Reasoning [32.70499084074494]
本稿では、効率最適化を正当性から切り離すための動的デカップリングアドバンテージ(DDCA)を提案する。
GSM8K, MATH500, AMC23, AIME25 の実験では,DDCA は適応ベースラインに対する効率-精度トレードオフを一貫して改善している。
論文 参考訳(メタデータ) (2026-02-02T13:43:52Z) - DeepCompress: A Dual Reward Strategy for Dynamically Exploring and Compressing Reasoning Chains [56.708381920156256]
大規模推論モデル(LRM)は印象的な能力を示してきたが、単純な問題を過度に考えることや複雑な問題を過小評価することといった認知的非効率に悩まされている。
本稿では, LRMの精度と効率を両立させる新しいフレームワークである textbfDeepCompress を紹介する。
論文 参考訳(メタデータ) (2025-10-31T12:13:11Z) - Think Right: Learning to Mitigate Under-Over Thinking via Adaptive, Attentive Compression [68.69801176669843]
本稿では,冗長なステップを誘発し,難易度を推定するオンラインポストトレーニングRL手法を提案する。
TRAAC(Think Right with Adaptive, Attentive Compression)は、絶対精度が平均8.4%向上する。
我々のモデルは数学データセットに基づいて訓練されているが、分布外データセットの精度と効率性を示す。
論文 参考訳(メタデータ) (2025-10-02T02:00:20Z) - Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding [59.60915947702282]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論能力の向上に成功している。
既存のRLVR手法は、訓練データの困難さとモデルの能力のミスマッチにより、探索の非効率に悩まされることが多い。
本稿では,高効率領域に留まることの難易度を動的に調整する新しい監視支援RLVRフレームワークであるSEELEを提案する。
論文 参考訳(メタデータ) (2025-09-08T17:36:21Z) - Less is More Tokens: Efficient Math Reasoning via Difficulty-Aware Chain-of-Thought Distillation [82.2288581878096]
本稿では,問題複雑性に基づいてモデルに推論深度を動的に調整する難易度推論の枠組みを提案する。
モデルにそのような動的推論経路を与えることができ、アーキテクチャ上の変更を加えることなく実現可能であることを示す。
論文 参考訳(メタデータ) (2025-09-05T16:40:13Z) - ARM: Adaptive Reasoning Model [52.955386431182724]
本稿では,そのタスクに基づいて適切なフォーマットを適応的に選択できる推論モデルであるAdaptive Reasoning Model (ARM)を提案する。
Ada-GRPOはARMが高いトークン効率を実現し、Long CoTのみに依存するモデルに匹敵するパフォーマンスを維持しながら、トークンを平均30%、最大70%削減する。
論文 参考訳(メタデータ) (2025-05-26T17:38:50Z) - DAST: Difficulty-Adaptive Slow-Thinking for Large Reasoning Models [30.184895117009457]
本稿では,問題の難易度に基づいて,モデルが自律的にChain-of-Thought(CoT)の長さを調整できる,DAST(Difficulty-Adaptive Slow Thinking)を提案する。
多様なデータセットとモデルスケールの実験により、DASTは複雑な問題に対する推論精度を維持しながら、過剰思考を効果的に軽減することを示した。
論文 参考訳(メタデータ) (2025-03-06T14:23:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。