Fugu-MT 論文翻訳(概要): Stable Adaptive Thinking via Advantage Shaping and Length-Aware Gradient Regulation

論文の概要: Stable Adaptive Thinking via Advantage Shaping and Length-Aware Gradient Regulation

arxiv url: http://arxiv.org/abs/2602.22556v1
Date: Thu, 26 Feb 2026 02:49:36 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.496789
Title: Stable Adaptive Thinking via Advantage Shaping and Length-Aware Gradient Regulation
Title（参考訳）: アドバンテージシェイピングと長さ認識のグラディエント制御による安定な適応的思考
Authors: Zihang Xu, Haozhi Xie, Ziqi Miao, Wuxuan Gong, Chen Qian, Lijun Li,
Abstract要約: 大規模推論モデル(LRM)は、拡張された推論トレースを通じて強力な性能を達成する。 LRMは低複雑さのクエリに対して過度な振る舞いを示すことが多い。 LRMにおける安定的適応的思考のための2段階のフレームワークを提案する。
参考スコア（独自算出の注目度）: 14.501114943020589
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large reasoning models (LRMs) achieve strong performance through extended reasoning traces, but they often exhibit overthinking behavior for low-complexity queries. Existing efforts to mitigate this issue are fundamentally limited by unstable accuracy-efficiency trade-offs and poor robustness to heterogeneous reasoning behaviors. To address these challenges, we propose a two-stage framework for stable adaptive thinking in LRMs. The framework first applies Hybrid Fine-Tuning to expose the model to both thinking and no-thinking behaviors, establishing well-conditioned initialization. It then performs adaptive reinforcement learning with Correctness-Preserving Advantage Shaping (CPAS) to avoid suppressing correct long-chain reasoning, and Length-Aware Gradient Regulation (LAGR) to stabilize optimization under severe reasoning-length heterogeneity. Extensive experiments on Qwen2.5-1.5B and 7B show consistent improvements over strong baselines, achieving up to +3.7/+3.6 accuracy points while reducing generated tokens by 40.6%/43.9%. Further analyses across varying problem difficulties and out-of-distribution tasks confirm the robustness and generalization of our approach.
Abstract（参考訳）: 大規模推論モデル(LRM)は、拡張された推論トレースを通じて高い性能を達成するが、低複雑さのクエリに対して過度な振る舞いを示すことが多い。この問題を緩和するための既存の取り組みは、不安定な精度効率のトレードオフと不均一な推論行動に対するロバスト性によって、基本的に制限されている。これらの課題に対処するために, LRMにおける安定した適応的思考のための2段階のフレームワークを提案する。このフレームワークはまずHybrid Fine-Tuningを使用して、モデルを思考と非思考の両方に公開し、十分に条件付き初期化を確立する。次に、正しい長鎖推論を抑えるためにCPAS(Correctness-Preserving Advantage Shaping)とLongth-Aware Gradient Regulation(LAGR)を用いて適応強化学習を行い、厳密な推論長の不均一性の下で最適化を安定化する。 Qwen2.5-1.5Bと7Bの大規模な実験では、強いベースラインよりも一貫した改善が見られ、+3.7/+3.6の精度ポイントが達成され、生成したトークンは40.6%/43.9%削減された。様々な問題問題やアウト・オブ・ディストリビューションタスクに関するさらなる分析は、我々のアプローチの堅牢性と一般化を裏付けるものである。

関連論文リスト

Stepwise Penalization for Length-Efficient Chain-of-Thought Reasoning [66.22060690012512]
大規模な推論モデルは、より多くのテストタイム計算で改善されるが、しばしば過大評価され、正確さを向上することなくコストを上昇させる必要のない長い連鎖を生み出す。本研究は,本質的な貢献に基づいて,ステップ間の長さ短縮を割り当てる,きめ細かいフレームワークであるSWAPを提案する。
論文参考訳（メタデータ） (2026-02-27T20:23:59Z)
Constraint-Rectified Training for Efficient Chain-of-Thought [60.52883907721588]
CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。より長い推論トレースは、自己訂正のような回答の品質とアンロック能力を改善することができるが、高い推論コストを発生させ、過度に考えることとして知られる冗長なステップをしばしば導入する。近年の研究は、推論の長さと精度のバランスをとる効率的な推論戦略の開発を目指している。
論文参考訳（メタデータ） (2026-02-13T02:13:45Z)
ConMax: Confidence-Maximizing Compression for Efficient Chain-of-Thought Reasoning [46.481679150652205]
大規模推論モデルは、精度を向上することなく計算コストを増大させる冗長な推論経路を生成する。本稿では,推論トレースを自動的に圧縮する新しい強化学習フレームワークであるConMaxを紹介する。 5つの推論データセットに対する実験は、ConMaxが優れた効率とパフォーマンスのトレードオフを達成することを示した。
論文参考訳（メタデータ） (2026-01-08T14:22:58Z)
DART: Difficulty-Adaptive Reasoning Truncation for Efficient Large Language Models [36.962276192354174]
textbfDARTは、問題の難易度に応じて思考長を調整する。 textbfTruncationフレームワークは、いつ考えるのをやめるかを学ぶ
論文参考訳（メタデータ） (2025-11-03T02:41:20Z)
Stop When Enough: Adaptive Early-Stopping for Chain-of-Thought Reasoning [46.106795445750855]
REFRAINはトレーニング不要のフレームワークで、理由付けをやめて過度に考えることを緩和する。 REFRAINは、標準的なCoTプロンプトと比較して、トークンの使用量を20～55%削減し、精度を維持または改善している。
論文参考訳（メタデータ） (2025-10-11T08:30:00Z)
Think Right: Learning to Mitigate Under-Over Thinking via Adaptive, Attentive Compression [68.69801176669843]
本稿では,冗長なステップを誘発し,難易度を推定するオンラインポストトレーニングRL手法を提案する。 TRAAC(Think Right with Adaptive, Attentive Compression)は、絶対精度が平均8.4%向上する。我々のモデルは数学データセットに基づいて訓練されているが、分布外データセットの精度と効率性を示す。
論文参考訳（メタデータ） (2025-10-02T02:00:20Z)
ARS: Adaptive Reasoning Suppression for Efficient Large Reasoning Language Models [0.0]
推論抑制(Reasoning Suppression、ARS)は、冗長な推論ステップを動的に抑制する訓練のないアプローチである。 ARSは53%、46.1%、57.9%のトークン、レイテンシ、エネルギー削減を実現し、精度を維持または改善している。
論文参考訳（メタデータ） (2025-09-29T20:19:41Z)
Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。 SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文参考訳（メタデータ） (2025-09-20T17:09:14Z)
Hierarchical Budget Policy Optimization for Adaptive Reasoning [49.621779447691665]
階層的予算政策最適化(Hierarchical Budget Policy Optimization, HBPO)は、モデルが問題固有の推論深度を犠牲にすることなく学習できる強化学習フレームワークである。 HBPOは、探索空間を予算制約付き階層(512-2560トークン)に分割する。大規模な実験により、HBPOは平均トークン使用量を最大60.6%削減し、4つの推論ベンチマークで精度を3.14%改善した。
論文参考訳（メタデータ） (2025-07-21T17:52:34Z)
ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation [74.37307916314407]
提案するフレームワークはConciseHintと呼ばれ,推論モデルが簡潔に話すことを継続的に奨励する。 DeepSeek-R1 および Qwen-3 シリーズを含む最先端の LRM 実験により,本手法が簡潔な推論を効果的に生成できることが実証された。
論文参考訳（メタデータ） (2025-06-23T16:20:44Z)
When to Continue Thinking: Adaptive Thinking Mode Switching for Efficient Reasoning [20.233873556056487]
大規模推論モデル(LRM)は、長い推論チェーンを通じて顕著な性能を達成するが、しばしば冗長な推論のために過剰な計算オーバーヘッドを引き起こす。本稿では、不必要な推論を抑え、暗黙の回復を可能にするフレームワークである適応自己回復推論(ASRR)を提案する。本研究は, LRMの効率, 適応性, 安全性を高めるためのASRRの可能性を明らかにするものである。
論文参考訳（メタデータ） (2025-05-21T11:41:39Z)
ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [64.93140713419561]
大型推論モデル (LRM) は、Chain-of-Thought (CoT) による複雑な推論タスクで強く機能するが、しばしば冗長な出力に悩まされる。既存の微調整ベースの圧縮手法は、ポストホックプルーニングを動作させるか、コヒーレンスを推論する破壊を危険にさらすか、サンプリングベースの選択に依存するかのいずれかである。 ConCISEは、簡潔な推論連鎖を生成するために設計されたフレームワークであり、信頼注入を統合して推論の信頼性を高める。
論文参考訳（メタデータ） (2025-05-08T01:40:40Z)
A Deep Generative Learning Approach for Two-stage Adaptive Robust Optimization [3.124884279860061]
本稿では,2段階適応型ロバスト最適化のための逆生成を行う解アルゴリズムAGROを紹介する。 AGROは、同時に敵対的かつ現実的な高次元の一致を生成する。我々は、AGROが標準的なカラム・アンド・制約アルゴリズムを最大1.8%のプロダクション・ディストリビューション計画、最大11.6%の電力系統拡張で上回っていることを示す。
論文参考訳（メタデータ） (2024-09-05T17:42:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。