論文の概要: Attention as a Compass: Efficient Exploration for Process-Supervised RL in Reasoning Models
- arxiv url: http://arxiv.org/abs/2509.26628v1
- Date: Tue, 30 Sep 2025 17:58:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.657416
- Title: Attention as a Compass: Efficient Exploration for Process-Supervised RL in Reasoning Models
- Title(参考訳): コンパスとしての注意:推論モデルにおけるプロセススーパービジョンRLの効率的な探索
- Authors: Runze Liu, Jiakang Wang, Yuling Shi, Zhihui Xie, Chenxin An, Kaiyan Zhang, Jian Zhao, Xiaodong Gu, Lei Lin, Wenping Hu, Xiu Li, Fuzheng Zhang, Guorui Zhou, Kun Gai,
- Abstract要約: 推論モデルの効率的な探索を可能にする新しいPSRLフレームワーク(AttnRL)を提案する。
高い注意点を示すステップが推論行動と相関しているという予備観測により,高い値を持つ位置から分岐することを提案する。
我々は,問題の難易度と過去のバッチサイズを考慮に入れた適応型サンプリング戦略を開発し,トレーニングバッチ全体が非ゼロの利点値を維持することを保証する。
- 参考スコア(独自算出の注目度): 47.05227816684691
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) has shown remarkable success in enhancing the reasoning capabilities of Large Language Models (LLMs). Process-Supervised RL (PSRL) has emerged as a more effective paradigm compared to outcome-based RL. However, existing PSRL approaches suffer from limited exploration efficiency, both in terms of branching positions and sampling. In this paper, we introduce a novel PSRL framework (AttnRL), which enables efficient exploration for reasoning models. Motivated by preliminary observations that steps exhibiting high attention scores correlate with reasoning behaviors, we propose to branch from positions with high values. Furthermore, we develop an adaptive sampling strategy that accounts for problem difficulty and historical batch size, ensuring that the whole training batch maintains non-zero advantage values. To further improve sampling efficiency, we design a one-step off-policy training pipeline for PSRL. Extensive experiments on multiple challenging mathematical reasoning benchmarks demonstrate that our method consistently outperforms prior approaches in terms of performance and sampling and training efficiency.
- Abstract(参考訳): 強化学習(RL)は,大規模言語モデル(LLM)の推論能力の向上に成功している。
Process-Supervised RL (PSRL) は、結果に基づくRLよりも効果的なパラダイムとして登場した。
しかし、既存のPSRLアプローチでは、分岐位置とサンプリングの両方において、探査効率が制限されている。
本稿では,推論モデルの効率的な探索を可能にする新しいPSRLフレームワーク(AttnRL)を提案する。
高い注意点を示すステップが推論行動と相関しているという予備観測により,高い値を持つ位置から分岐することを提案する。
さらに,問題の難易度と過去のバッチサイズを考慮に入れた適応型サンプリング戦略を開発し,トレーニングバッチ全体が非ゼロアドバンテージ値を維持することを保証する。
サンプリング効率をさらに向上するため,PSRLのためのワンステップオフ政治訓練パイプラインを設計する。
複数の挑戦的な数学的推論ベンチマークに対する大規模な実験により,本手法は性能,サンプリング,訓練の効率において,従来手法よりも一貫して優れていたことが証明された。
関連論文リスト
- Learning to Reason as Action Abstractions with Scalable Mid-Training RL [55.24192942739207]
効果的な中間訓練フェーズは、有用なアクションのコンパクトなセットを特定し、高速な選択を可能にする。
本稿では,スケーラブルなミッドトレーニングアルゴリズムであるReasoning as Action Abstractions (RA3)を提案する。
論文 参考訳(メタデータ) (2025-09-30T05:34:20Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [82.43575191712726]
本稿では,強化学習が推論に与える影響を明らかにするための,きめ細かい分析フレームワークを提案する。
本フレームワークは,RLトレーニングの恩恵を受けると仮定された重要な要素を具体的に調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - Improving Multi-Step Reasoning Abilities of Large Language Models with Direct Advantage Policy Optimization [22.67700436936984]
ステップレベルのオフライン強化学習アルゴリズムであるDAPO(Direct Advantage Policy Optimization)を導入する。
DAPOは、各ステップにおける推論精度を予測するために批判機能を使用し、それによって高密度信号を生成して生成戦略を洗練させる。
その結果,DAPO は SFT モデルと RL モデルの両方の数学的・コード的能力を効果的に向上し,DAPO の有効性を示すことができた。
論文 参考訳(メタデータ) (2024-12-24T08:39:35Z) - Learning Off-policy with Model-based Intrinsic Motivation For Active Online Exploration [15.463313629574111]
本稿では,連続制御タスクにおけるサンプル効率の高い探索手法について検討する。
本稿では,予測モデルと非政治学習要素を組み込んだRLアルゴリズムを提案する。
パラメーターのオーバーヘッドを発生させずに本質的な報酬を導き出す。
論文 参考訳(メタデータ) (2024-03-31T11:39:11Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。