Fugu-MT 論文翻訳(概要): SPS: Steering Probability Squeezing for Better Exploration in Reinforcement Learning for Large Language Models

論文の概要: SPS: Steering Probability Squeezing for Better Exploration in Reinforcement Learning for Large Language Models

arxiv url: http://arxiv.org/abs/2604.16995v1
Date: Sat, 18 Apr 2026 13:49:47 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-21 21:52:52.279447
Title: SPS: Steering Probability Squeezing for Better Exploration in Reinforcement Learning for Large Language Models
Title（参考訳）: SPS:大規模言語モデルの強化学習における探索性向上のためのステアリング確率の探索
Authors: Yifu Huo, Chenglong Wang, Ziming Zhu, Shunjie Xing, Peinan Feng, Tongran Liu, Qiaozhi He, Tianhua Zhou, Xiaojia Chang, Jingbo Zhu, Zhengtao Yu, Tong Xiao,
Abstract要約: 強化学習(Reinforcement Learning, RL)は、推論指向モデルをトレーニングするための有望なパラダイムとして登場した。逆強化学習(IRL)で従来のRLをインターリーブする学習パラダイムを提案する。この結果から,RLとIRLの交互接続は,推論指向の大規模言語モデルの探索能力向上に有効な経路であることが示唆された。
参考スコア（独自算出の注目度）: 51.99912169291891
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement learning (RL) has emerged as a promising paradigm for training reasoning-oriented models by leveraging rule-based reward signals. However, RL training typically tends to improve single-sample success rates (i.e., Pass@1) while offering limited exploration of diverse reasoning trajectories, which is crucial for multi-sample performance (i.e., Pass@k). Our preliminary analysis reveals that this limitation stems from a fundamental squeezing effect, whereby probability mass is excessively concentrated on a narrow subset of high-reward trajectories, restricting genuine exploration and constraining attainable performance under RL training. To address this issue, in this work, we propose Steering Probability Squeezing (SPS), a training paradigm that interleaves conventional RL with inverse reinforcement learning (IRL). SPS treats on-policy rollouts as demonstrations and employs IRL to explicitly reshape the induced trajectory distribution, thereby enhancing exploration without introducing external supervision. Experiments on five commonly used reasoning benchmarks demonstrate that SPS can enable better exploration and improve Pass@k. Beyond algorithmic contributions, we provide an analysis of RL learning dynamics and identify an empirical upper bound on Pass@k, shedding light on intrinsic exploration limits in RL-based reasoning models. Our findings suggest that alternating between RL and IRL offers an effective pathway toward extending the exploration capacity of reasoning-oriented large language models.
Abstract（参考訳）: 強化学習(Reinforcement Learning, RL)は、ルールに基づく報酬信号を活用することによって、推論指向モデルをトレーニングするための有望なパラダイムとして登場した。しかし、RLトレーニングは通常、シングルサンプルの成功率(Pass@1)を改善する傾向にあり、マルチサンプルのパフォーマンス(すなわちPass@k)に不可欠な様々な推論軌道の限定的な探索を提供する。予備分析の結果, この制限は, 高軌道の狭い部分集合に確率質量を過度に集中させ, 真の探査を制限し, 到達可能な性能をRL訓練で制限する, 基本的なスクイーズ効果に起因していることが判明した。本稿では,従来のRLを逆強化学習(IRL)とインターリーブする学習パラダイムであるステアリング確率スキーズ(SPS)を提案する。 SPSは、オンラインのロールアウトをデモとして扱い、IRLを使用して誘導された軌道分布を明示的に再構成し、外部監視を導入することなく探索を強化する。 5つの一般的な推論ベンチマークの実験は、SPSがより良い探索とPass@kの改善を可能にしていることを示している。アルゴリズム的貢献の他に、RL学習力学の解析を行い、Pass@k上の経験的上限を同定し、RLに基づく推論モデルにおける本質的な探索限界に光を当てる。この結果から,RLとIRLの交互接続は,推論指向の大規模言語モデルの探索能力向上に有効な経路であることが示唆された。

関連論文リスト

Diversity or Precision? A Deep Dive into Next Token Prediction [19.30494719444709]
本研究では,事前学習したトークン出力分布が,その後の強化学習の探索ポテンシャルをいかに形成するかを検討する。精度指向の勾配を先行させると、RLのより優れた探索空間が得られることが分かる。
論文参考訳（メタデータ） (2025-12-28T14:53:24Z)
Tailored Primitive Initialization is the Secret Key to Reinforcement Learning [61.29280885291581]
強化学習(RL)は、大規模言語モデル(LLM)の推論能力を高めるための強力なパラダイムとして登場した。多様な,高品質な推論プリミティブによるLLMの初期化は,安定かつサンプル効率のよいRLトレーニングを実現する上で不可欠である,と我々は主張する。そこで我々は,新しい推論プリミティブを自動的に発見し,キュレートする微調整パイプラインであるTailorを提案する。
論文参考訳（メタデータ） (2025-11-16T03:12:40Z)
Attention as a Compass: Efficient Exploration for Process-Supervised RL in Reasoning Models [47.05227816684691]
推論モデルの効率的な探索を可能にする新しいPSRLフレームワーク(AttnRL)を提案する。高い注意点を示すステップが推論行動と相関しているという予備観測により,高い値を持つ位置から分岐することを提案する。我々は,問題の難易度と過去のバッチサイズを考慮に入れた適応型サンプリング戦略を開発し,トレーニングバッチ全体が非ゼロの利点値を維持することを保証する。
論文参考訳（メタデータ） (2025-09-30T17:58:34Z)
Reinforcement Learning on Pre-Training Data [55.570379963147424]
我々は,大規模言語モデル(LLM)を最適化するための新しい訓練時間スケーリングパラダイムである,事前学習データ(R)の強化学習を紹介する。 Rは、有意義な軌道を自律的に探索し、事前学習データから学び、強化学習(RL)を通してその能力を向上させる。複数のモデルにわたる一般領域および数学的推論ベンチマークの広範な実験は、Rの有効性を検証した。
論文参考訳（メタデータ） (2025-09-23T17:10:40Z)
RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [111.1749164063616]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。 RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文参考訳（メタデータ） (2025-07-31T23:55:29Z)
Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。 SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文参考訳（メタデータ） (2025-06-05T07:53:59Z)
ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models [89.37819814048288]
本稿では,KL分散制御,参照ポリシ,多様なタスクスイートを取り入れた新しいトレーニング手法であるProRLを紹介する。我々の経験的分析により、RL学習モデルは、広範囲のpass@k評価において、ベースリセットモデルよりも一貫して優れていたことが明らかとなった。これらの知見は、RLが言語モデルにおける推論境界を有意に拡張する条件について、新たな洞察を与える。
論文参考訳（メタデータ） (2025-05-30T17:59:01Z)
RAST: Reasoning Activation in LLMs via Small-model Transfer [33.32587030836428]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上のための強力なアプローチとなっている。大規模にRLを適用することは、潜在的にリソース集約であり、複数のモデルコピーと広範なGPUワークロードを必要とします。本稿では、RL学習モデルからRL学習モデルからより大規模なモデルにRL誘導確率調整を注入することにより、推論挙動を伝達する簡易かつ効果的なRASTを提案する。
論文参考訳（メタデータ） (2025-05-30T17:57:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。