論文の概要: ATTNPO: Attention-Guided Process Supervision for Efficient Reasoning
- arxiv url: http://arxiv.org/abs/2602.09953v1
- Date: Tue, 10 Feb 2026 16:40:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.688555
- Title: ATTNPO: Attention-Guided Process Supervision for Efficient Reasoning
- Title(参考訳): ATTNPO:効率的な推論のための注意誘導プロセススーパービジョン
- Authors: Shuaiyi Nie, Siyu Ding, Wenyuan Zhang, Linhao Yu, Tianmeng Yang, Yao Chen, Tingwen Liu, Weichong Yin, Yu Sun, Hua Wu,
- Abstract要約: 本稿では,低オーバーヘッドプロセス管理RLフレームワークであるATTNPOを提案する。
まず、冗長な注意を抑えながら、自然に重要なステップに焦点をあてる、特別な注意のヘッドのセットを特定します。
次に、2つのサブストラテジーを用いて、冗長なステップを回避し、重要なステップに対する罰則を減らし、精度を保ちながら過度な思考を緩和する。
- 参考スコア(独自算出の注目度): 31.958298572740848
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large reasoning models trained with reinforcement learning and verifiable rewards (RLVR) achieve strong performance on complex reasoning tasks, yet often overthink, generating redundant reasoning without performance gains. Existing trajectory-level length penalties often fail to effectively shorten reasoning length and degrade accuracy, as they uniformly treat all reasoning steps and lack fine-grained signals to distinguish redundancy from necessity. Meanwhile, process-supervised methods are typically resource-intensive and suffer from inaccurate credit assignment. To address these issues, we propose ATTNPO, a low-overhead process-supervised RL framework that leverages the model's intrinsic attention signals for step-level credit assignment. We first identify a set of special attention heads that naturally focus on essential steps while suppressing redundant ones. By leveraging the attention scores of these heads, We then employ two sub-strategies to mitigate overthinking by discouraging redundant steps while preserving accuracy by reducing penalties on essential steps. Experimental results show that ATTNPO substantially reduces reasoning length while significantly improving performance across 9 benchmarks.
- Abstract(参考訳): 強化学習と検証可能な報酬(RLVR)で訓練された大規模な推論モデルは、複雑な推論タスクにおいて強力なパフォーマンスを達成するが、しばしば過度に考え、性能向上なしに冗長な推論を生成する。
既存の軌跡レベルの長さのペナルティは、すべての推論ステップを均一に扱い、冗長性を必要と区別するための微細な信号が欠如しているため、推論の長さと精度の低下を効果的に短縮することができないことが多い。
一方、プロセス管理手法は典型的には資源集約的であり、不正確なクレジット割り当てに悩まされる。
これらの問題に対処するため、ステップレベルのクレジット代入のために、モデル固有の注意信号を利用する低オーバーヘッドプロセス制御RLフレームワークであるATTNPOを提案する。
まず、冗長な注意を抑えながら、自然に重要なステップに焦点をあてる、特別な注意のヘッドのセットを特定します。
次に、これらの頭部の注意点を利用して、2つのサブストラテジーを用いて、不要なステップを回避し、重要なステップに対する罰則を減らし、正確性を保ちながら過度なステップを回避し、過度な思考を緩和する。
実験の結果,ATTNPOは推理時間を大幅に短縮し,9つのベンチマークで性能を著しく改善した。
関連論文リスト
- ProRAG: Process-Supervised Reinforcement Learning for Retrieval-Augmented Generation [54.071574153853994]
ProRAGは、学習段階の監視をオンライン最適化ループに統合するために設計されたプロセス教師付き強化学習フレームワークである。
本フレームワークは,(1)構造化推論形式でモデルを初期化するための監視されたポリシーワームアップ,(2)中間推論品質を定量化するためのMCTSベースのプロセスリワードモデル(PRM)の構築,(3)細粒度プロセスの好みに合わせてポリシーを調整するためのPRM誘導推論リファインメント,(4)プロセススーパービジョン強化学習と2つのグラニュラリティー・アドバンテージ・メカニズムの4段階から構成される。
論文 参考訳(メタデータ) (2026-01-29T16:04:59Z) - Structured Reasoning for Large Language Models [59.215789462977206]
本研究では、推論を明示的、評価可能、トレーニング可能なコンポーネントに分解するフレームワークであるStructured Reasoning(SCR)を提案する。
SCRは推論効率と自己検証を大幅に改善する。
既存の推論パラダイムと比較して、出力トークンの長さを最大50%削減する。
論文 参考訳(メタデータ) (2026-01-12T04:04:01Z) - Understanding and Steering the Cognitive Behaviors of Reasoning Models at Test-Time [22.9491443902816]
本研究では、推論軌跡の構造と、異なる認知行動と相関する特別な注意点を明らかにする。
テスト時間における認知推論ステアリングのトレーニング不要な方法であるCRESTを提案する。
CRESTは非生産的推論の振る舞いを適応的に抑制し、高い精度と低い計算コストをもたらす。
論文 参考訳(メタデータ) (2025-12-31T02:46:04Z) - Beyond Token Length: Step Pruner for Efficient and Accurate Reasoning in Large Language Models [26.88030285500965]
大きな推論モデル(LRM)は複雑なタスクにおいて強いパフォーマンスを示すが、しばしば過剰な冗長性に悩まされる。
コンパクトな推論ステップを好んで, LRM をより効率的に推論するための RL フレームワークである textbfStep Pruner (SP) を導入する。
我々のステップアウェア報酬関数は、冗長なステップに対して罰則を課しながら正当性を優先し、誤った推論の強化を防ぐための誤った応答に対する報酬を控える。
論文 参考訳(メタデータ) (2025-10-04T13:24:26Z) - Overthinking Reduction with Decoupled Rewards and Curriculum Data Scheduling [41.834250664485666]
大規模な推論モデルは、パフォーマンス上のメリットのない、過度に長い推論パスを生成します。
長さをペナライズする既存のソリューションは、しばしば失敗し、パフォーマンスが低下する。
我々は、現在長さの報酬に未適応な2つの欠陥の理論的発見に基づいて、新しいフレームワークDECSを紹介した。
論文 参考訳(メタデータ) (2025-09-30T06:04:43Z) - SmartThinker: Learning to Compress and Preserve Reasoning by Step-Level Length Control [5.224609066309358]
大規模な推論モデル(LRM)は、推論時間スケーリングを通じて顕著な推論能力を示した。
従来の研究は、強化学習中に生成されたサンプル全体の長さをペナルティ化することでこの問題を緩和しようと試みてきた。
We propose SmartThinker, a two-stage learnable framework designed to enable fine-fine control over the length of reasoning chains。
論文 参考訳(メタデータ) (2025-07-06T11:21:47Z) - Lost at the Beginning of Reasoning [85.17612793300238]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。
本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2025-06-27T09:53:57Z) - Think Clearly: Improving Reasoning via Redundant Token Pruning [57.01254508252785]
推論過程における冗長性を意図的に除去することで、性能が大幅に向上することを示す。
本手法は, 推論集約型ベンチマークにおいて, トレーニングを伴わずに, 全体的な精度を著しく向上することを示した。
論文 参考訳(メタデータ) (2025-06-17T06:04:01Z) - ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [64.93140713419561]
大型推論モデル (LRM) は、Chain-of-Thought (CoT) による複雑な推論タスクで強く機能するが、しばしば冗長な出力に悩まされる。
既存の微調整ベースの圧縮手法は、ポストホックプルーニングを動作させるか、コヒーレンスを推論する破壊を危険にさらすか、サンプリングベースの選択に依存するかのいずれかである。
ConCISEは、簡潔な推論連鎖を生成するために設計されたフレームワークであり、信頼注入を統合して推論の信頼性を高める。
論文 参考訳(メタデータ) (2025-05-08T01:40:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。