論文の概要: Stabilizing Efficient Reasoning with Step-Level Advantage Selection
- arxiv url: http://arxiv.org/abs/2604.24003v1
- Date: Mon, 27 Apr 2026 03:34:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.722892
- Title: Stabilizing Efficient Reasoning with Step-Level Advantage Selection
- Title(参考訳): ステップレベルアドバンテージ選択による効率的な推論の安定化
- Authors: Han Wang, Xiaodong Yu, Jialian Wu, Jiang Liu, Ximeng Sun, Mohit Bansal, Zicheng Liu,
- Abstract要約: 我々は,長さを意識しない標準のGRPOを用いて,短文のポストトレーニング単独で,すでにかなりの推理圧縮を誘導していることを示す。
そこで本稿では, 適切なロールアウトにおける低信頼度ステップと, 検証済みロールアウトにおける高信頼度ステップにゼロアドバンテージを割り当てるステップレベルアドバンテージ選択(SAS)を提案する。
- 参考スコア(独自算出の注目度): 54.563811052329235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) achieve strong reasoning performance by allocating substantial computation at inference time, often generating long and verbose reasoning traces. While recent work on efficient reasoning reduces this overhead through length-based rewards or pruning, many approaches are post-trained under a much shorter context window than base-model training, a factor whose effect has not been systematically isolated. We first show that short-context post-training alone, using standard GRPO without any length-aware objective, already induces substantial reasoning compression-but at the cost of increasingly unstable training dynamics and accuracy degradation. To address this, we propose Step-level Advantage Selection (SAS), which operates at the reasoning-step level and assigns a zero advantage to low-confidence steps in correct rollouts and to high-confidence steps in verifier-failed rollouts, where failures often arise from truncation or verifier issues rather than incorrect reasoning. Across diverse mathematical and general reasoning benchmarks, SAS improves average Pass@1 accuracy by 0.86 points over the strongest length-aware baseline while reducing average reasoning length by 16.3%, yielding a better accuracy-efficiency trade-off.
- Abstract(参考訳): 大規模言語モデル (LLM) は、推論時に実質的な計算を割り当て、しばしば長く冗長な推論トレースを生成することで、強力な推論性能を達成する。
効率的な推論に関する最近の研究は、長さに基づく報酬やプルーニングを通じてこのオーバーヘッドを減らすが、多くのアプローチはベースモデルトレーニングよりもはるかに短いコンテキストウィンドウの下で後から訓練される。
まず,長さを意識しない標準 GRPO を用いた短文後学習が,より不安定なトレーニングダイナミクスと精度低下を犠牲にして,すでに相当な推理的圧縮を誘導していることを示す。
そこで本研究では,正しいロールアウトにおいて,信頼性の低いステップと信頼性の低いロールアウトに対してゼロなアドバンテージを割り当てるステップレベルアドバンテージ選択(SAS)を提案する。
様々な数学的および一般的な推論ベンチマークにおいて、SASは平均パス@1の精度を最強の長さ認識ベースラインよりも0.86ポイント改善し、平均推論長を16.3%削減し、精度と効率のトレードオフを向上した。
関連論文リスト
- Learning When to Sample: Confidence-Aware Self-Consistency for Efficient LLM Chain-of-Thought Reasoning [7.8668388431725695]
大規模言語モデル(LLM)は、チェーン・オブ・ソート(CoT)推論によって強い推論性能を達成する。
最近の自己整合性に基づくアプローチは、精度をさらに向上するが、複数の推論軌道のサンプリングと集約が必要である。
本稿では,単一経路と複数経路の推論を適応的に選択するための単一経路推論軌道を解析する信頼度対応決定フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-09T22:34:06Z) - Stepwise Penalization for Length-Efficient Chain-of-Thought Reasoning [66.22060690012512]
大規模な推論モデルは、より多くのテストタイム計算で改善されるが、しばしば過大評価され、正確さを向上することなくコストを上昇させる必要のない長い連鎖を生み出す。
本研究は,本質的な貢献に基づいて,ステップ間の長さ短縮を割り当てる,きめ細かいフレームワークであるSWAPを提案する。
論文 参考訳(メタデータ) (2026-02-27T20:23:59Z) - WS-GRPO: Weakly-Supervised Group-Relative Policy Optimization for Rollout-Efficient Reasoning [67.45237332694025]
グループ相対政策最適化は、複雑な推論に基づいて言語モデルを訓練するのに効果的である。
Weakly Supervised GRPOを提案し、端末報酬を正当性を考慮したガイダンスに変換することにより、ロールアウト効率を向上させる。
論文 参考訳(メタデータ) (2026-02-19T02:43:35Z) - Constraint-Rectified Training for Efficient Chain-of-Thought [60.52883907721588]
CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。
より長い推論トレースは、自己訂正のような回答の品質とアンロック能力を改善することができるが、高い推論コストを発生させ、過度に考えることとして知られる冗長なステップをしばしば導入する。
近年の研究は、推論の長さと精度のバランスをとる効率的な推論戦略の開発を目指している。
論文 参考訳(メタデータ) (2026-02-13T02:13:45Z) - AALC: Large Language Model Efficient Reasoning via Adaptive Accuracy-Length Control [18.273777938294327]
大きな推論モデル(LRM)は、長いチェーン・オブ・シークレットを生成することで印象的な推論能力を達成する。
我々は、強化学習に組み込まれた軽量で精度の高い長さの報酬であるALCを紹介する。
提案手法は,元の精度を維持したり改善したりしながら,応答長を50%以上削減することを示す。
論文 参考訳(メタデータ) (2025-06-25T06:29:18Z) - Think or Not? Exploring Thinking Efficiency in Large Reasoning Models via an Information-Theoretic Lens [51.90059610606049]
本稿では,情報理論レンズによる推論プロセスの効率を再考する。
本稿では,理想的な推論経路と段階的な情報提供から分岐を定量化するために,InfoBias と InfoGain という2つの指標を提案する。
これらの知見に触発されて,信頼度が十分に高ければ推論を動的に停止する,エントロピーに基づく適応的思考戦略を導入する。
論文 参考訳(メタデータ) (2025-05-23T13:38:56Z) - ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [64.93140713419561]
大型推論モデル (LRM) は、Chain-of-Thought (CoT) による複雑な推論タスクで強く機能するが、しばしば冗長な出力に悩まされる。
既存の微調整ベースの圧縮手法は、ポストホックプルーニングを動作させるか、コヒーレンスを推論する破壊を危険にさらすか、サンプリングベースの選択に依存するかのいずれかである。
ConCISEは、簡潔な推論連鎖を生成するために設計されたフレームワークであり、信頼注入を統合して推論の信頼性を高める。
論文 参考訳(メタデータ) (2025-05-08T01:40:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。