論文の概要: Stable Adaptive Thinking via Advantage Shaping and Length-Aware Gradient Regulation
- arxiv url: http://arxiv.org/abs/2602.22556v1
- Date: Thu, 26 Feb 2026 02:49:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.496789
- Title: Stable Adaptive Thinking via Advantage Shaping and Length-Aware Gradient Regulation
- Title(参考訳): アドバンテージシェイピングと長さ認識のグラディエント制御による安定な適応的思考
- Authors: Zihang Xu, Haozhi Xie, Ziqi Miao, Wuxuan Gong, Chen Qian, Lijun Li,
- Abstract要約: 大規模推論モデル(LRM)は、拡張された推論トレースを通じて強力な性能を達成する。
LRMは低複雑さのクエリに対して過度な振る舞いを示すことが多い。
LRMにおける安定的適応的思考のための2段階のフレームワークを提案する。
- 参考スコア(独自算出の注目度): 14.501114943020589
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large reasoning models (LRMs) achieve strong performance through extended reasoning traces, but they often exhibit overthinking behavior for low-complexity queries. Existing efforts to mitigate this issue are fundamentally limited by unstable accuracy-efficiency trade-offs and poor robustness to heterogeneous reasoning behaviors. To address these challenges, we propose a two-stage framework for stable adaptive thinking in LRMs. The framework first applies Hybrid Fine-Tuning to expose the model to both thinking and no-thinking behaviors, establishing well-conditioned initialization. It then performs adaptive reinforcement learning with Correctness-Preserving Advantage Shaping (CPAS) to avoid suppressing correct long-chain reasoning, and Length-Aware Gradient Regulation (LAGR) to stabilize optimization under severe reasoning-length heterogeneity. Extensive experiments on Qwen2.5-1.5B and 7B show consistent improvements over strong baselines, achieving up to +3.7/+3.6 accuracy points while reducing generated tokens by 40.6%/43.9%. Further analyses across varying problem difficulties and out-of-distribution tasks confirm the robustness and generalization of our approach.
- Abstract(参考訳): 大規模推論モデル(LRM)は、拡張された推論トレースを通じて高い性能を達成するが、低複雑さのクエリに対して過度な振る舞いを示すことが多い。
この問題を緩和するための既存の取り組みは、不安定な精度効率のトレードオフと不均一な推論行動に対するロバスト性によって、基本的に制限されている。
これらの課題に対処するために, LRMにおける安定した適応的思考のための2段階のフレームワークを提案する。
このフレームワークはまずHybrid Fine-Tuningを使用して、モデルを思考と非思考の両方に公開し、十分に条件付き初期化を確立する。
次に、正しい長鎖推論を抑えるためにCPAS(Correctness-Preserving Advantage Shaping)とLongth-Aware Gradient Regulation(LAGR)を用いて適応強化学習を行い、厳密な推論長の不均一性の下で最適化を安定化する。
Qwen2.5-1.5Bと7Bの大規模な実験では、強いベースラインよりも一貫した改善が見られ、+3.7/+3.6の精度ポイントが達成され、生成したトークンは40.6%/43.9%削減された。
様々な問題問題やアウト・オブ・ディストリビューションタスクに関するさらなる分析は、我々のアプローチの堅牢性と一般化を裏付けるものである。
関連論文リスト
- Think Right: Learning to Mitigate Under-Over Thinking via Adaptive, Attentive Compression [68.69801176669843]
本稿では,冗長なステップを誘発し,難易度を推定するオンラインポストトレーニングRL手法を提案する。
TRAAC(Think Right with Adaptive, Attentive Compression)は、絶対精度が平均8.4%向上する。
我々のモデルは数学データセットに基づいて訓練されているが、分布外データセットの精度と効率性を示す。
論文 参考訳(メタデータ) (2025-10-02T02:00:20Z) - ARS: Adaptive Reasoning Suppression for Efficient Large Reasoning Language Models [0.0]
推論抑制(Reasoning Suppression、ARS)は、冗長な推論ステップを動的に抑制する訓練のないアプローチである。
ARSは53%、46.1%、57.9%のトークン、レイテンシ、エネルギー削減を実現し、精度を維持または改善している。
論文 参考訳(メタデータ) (2025-09-29T20:19:41Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation [74.37307916314407]
提案するフレームワークはConciseHintと呼ばれ,推論モデルが簡潔に話すことを継続的に奨励する。
DeepSeek-R1 および Qwen-3 シリーズを含む最先端の LRM 実験により,本手法が簡潔な推論を効果的に生成できることが実証された。
論文 参考訳(メタデータ) (2025-06-23T16:20:44Z) - When to Continue Thinking: Adaptive Thinking Mode Switching for Efficient Reasoning [20.233873556056487]
大規模推論モデル(LRM)は、長い推論チェーンを通じて顕著な性能を達成するが、しばしば冗長な推論のために過剰な計算オーバーヘッドを引き起こす。
本稿では、不必要な推論を抑え、暗黙の回復を可能にするフレームワークである適応自己回復推論(ASRR)を提案する。
本研究は, LRMの効率, 適応性, 安全性を高めるためのASRRの可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-05-21T11:41:39Z) - ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [64.93140713419561]
大型推論モデル (LRM) は、Chain-of-Thought (CoT) による複雑な推論タスクで強く機能するが、しばしば冗長な出力に悩まされる。
既存の微調整ベースの圧縮手法は、ポストホックプルーニングを動作させるか、コヒーレンスを推論する破壊を危険にさらすか、サンプリングベースの選択に依存するかのいずれかである。
ConCISEは、簡潔な推論連鎖を生成するために設計されたフレームワークであり、信頼注入を統合して推論の信頼性を高める。
論文 参考訳(メタデータ) (2025-05-08T01:40:40Z) - A Deep Generative Learning Approach for Two-stage Adaptive Robust Optimization [3.124884279860061]
本稿では,2段階適応型ロバスト最適化のための逆生成を行う解アルゴリズムAGROを紹介する。
AGROは、同時に敵対的かつ現実的な高次元の一致を生成する。
我々は、AGROが標準的なカラム・アンド・制約アルゴリズムを最大1.8%のプロダクション・ディストリビューション計画、最大11.6%の電力系統拡張で上回っていることを示す。
論文 参考訳(メタデータ) (2024-09-05T17:42:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。