論文の概要: Learning to Explore with Parameter-Space Noise: A Deep Dive into Parameter-Space Noise for Reinforcement Learning with Verifiable Rewards
- arxiv url: http://arxiv.org/abs/2602.02555v1
- Date: Fri, 30 Jan 2026 13:10:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:14.928832
- Title: Learning to Explore with Parameter-Space Noise: A Deep Dive into Parameter-Space Noise for Reinforcement Learning with Verifiable Rewards
- Title(参考訳): パラメータ空間雑音による探索学習--パラメータ空間雑音を深く掘り下げて-
- Authors: Bizhe Bai, Xinyue Wang, Peng Ye, Tao Chen,
- Abstract要約: PSN-RLVRは、ロールアウト生成前にポリシーパラメータを摂動させ、時間的に一貫した軌道レベルの探索を誘導する。
本稿では,意味的多様性と正規化自己確実性を組み合わせた軽量サロゲートによって駆動される,計算効率のよいリアルタイム適応ノイズスケジューラを提案する。
- 参考スコア(独自算出の注目度): 16.22162269278471
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) improves LLM reasoning, yet growing evidence indicates an exploration ceiling: it often reweights existing solution traces rather than discovering new strategies, limiting gains under large sampling budgets (e.g., pass-at-256). We address this limitation with PSN-RLVR, which perturbs policy parameters before rollout generation to induce temporally consistent, trajectory-level exploration that better preserves long-horizon chain-of-thought coherence than action-space noise. To mitigate the resulting sampling-update mismatch, we incorporate truncated importance sampling (TIS). To avoid expensive KL-based adaptive noise control, we propose a computationally efficient real-time adaptive noise scheduler driven by a lightweight surrogate that combines semantic diversity with normalized self-certainty. Instantiated on GRPO, a widely used RLVR method, PSN-GRPO consistently expands the effective reasoning capability boundary across multiple mathematical reasoning benchmarks and model families, yielding higher pass-at-k under large sampling budgets and outperforming prior exploration-oriented RLVR methods (e.g., Pass-at-k-style training) while remaining orthogonal and thus composable for additional gains.
- Abstract(参考訳): RLVR (Reinforcement Learning with Verifiable Rewards) は LLM の推論を改善するが、調査の天井となる証拠が増えている。
この制限に対処するため,PSN-RLVRはロールアウト前にポリシーパラメータを摂動させ,時間的に一貫した軌道レベルの探索を誘導する。
サンプリングと更新のミスマッチを緩和するため,truncated importance sample (TIS) を組み込んだ。
コストの高いKLベースの適応ノイズ制御を回避するために, セマンティック多様性と正規化自己確実性を組み合わせた軽量サロゲートによって駆動される, 計算効率のよいリアルタイム適応ノイズスケジューラを提案する。
広く使われているRLVR法であるGRPOに基づいてPSN-GRPOは、複数の数学的推論ベンチマークとモデルファミリーにわたって有効推論能力境界を一貫して拡張し、大規模なサンプリング予算の下でより高いパス・アット・kを得るとともに、直交したままの探査指向のRLVR法(例えば、パス・アット・kスタイルのトレーニング)より優れ、従って追加の利得のために構成できる。
関連論文リスト
- Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning [88.42566960813438]
CalibRLは、制御可能な探索と専門家のガイダンスをサポートするハイブリッド政治RLVRフレームワークである。
CalibRLは政策エントロピーを誘導的に増加させ、目標分布を明らかにする。
ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークの実験は、一貫した改善を示している。
論文 参考訳(メタデータ) (2026-02-22T07:23:36Z) - Contextual Rollout Bandits for Reinforcement Learning with Verifiable Rewards [69.74686029941881]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデルの推論能力を改善するための効果的なパラダイムである。
トレーニングを通して高価値ロールアウトを適応的に選択する統合型ニューラルネットワークスケジューリングフレームワークを提案する。
6つの数学的推論ベンチマークの実験では、複数のRLVR最適化手法で性能と訓練効率が一貫した向上を示した。
論文 参考訳(メタデータ) (2026-02-09T10:51:58Z) - Towards Sample-Efficient and Stable Reinforcement Learning for LLM-based Recommendation [56.92367609590823]
Long Chain-of-Thought (Long CoT)推論は、Large Language Models (LLMs)において有望であることを示している。
我々はLong CoTが本質的にシーケンシャルなレコメンデーションドメインに不適合であると主張している。
提案するRISER(Reinforced Item Space Exploration framework for Recommendation)を提案する。
論文 参考訳(メタデータ) (2026-01-31T10:02:43Z) - Less Noise, More Voice: Reinforcement Learning for Reasoning via Instruction Purification [44.681296696564004]
RLVR(Reinforcement Learning with Verifiable Rewards)は、LLM推論の進歩であるが、限定的なロールアウト予算の下での非効率な探索によって制約されている。
多くの探索失敗は、問題の難しさではなく、干渉を引き起こすプロンプトトークンの少なさから生じている。
本稿では、干渉トークンの識別と削除を最初に促すLess Noise Smpling Framework(LENS)を提案する。
論文 参考訳(メタデータ) (2026-01-29T04:08:24Z) - Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training [47.26632817047513]
大規模言語モデル(LLM)に推論タスクに適用された強化学習は、不安定な勾配推定によってボトルネックとなることが多い。
LLMのオンラインRLポストトレーニングのための適応型サンプリングフレームワークであるReinforce-Adaを提案する。
従来の2段階配置法とは異なり、Reinforce-Adaはオンライン連続除去プロセスにおける推定とサンプリングをインターリーブする。
論文 参考訳(メタデータ) (2025-10-06T16:34:09Z) - Unlocking Reasoning Capabilities in LLMs via Reinforcement Learning Exploration [8.839121572048018]
より広範に焦点を絞った探索を促進するアルゴリズムであるRAPOを提案する。
8K SimpleRL-Zeroデータセット上で,RAPOを用いてQwen2.5-3Bと7Bモデルをトレーニングする。
その結果,RAPOは一貫して問題解決性能を向上することがわかった。
論文 参考訳(メタデータ) (2025-10-04T16:22:19Z) - G$^2$RPO: Granular GRPO for Precise Reward in Flow Models [74.21206048155669]
本稿では,サンプリング方向の高精度かつ包括的な報酬評価を実現する新しいグラニュラー-GRPO(G$2$RPO)フレームワークを提案する。
複数の拡散スケールで計算された利点を集約するマルチグラニュラリティ・アドバンテージ・インテグレーション・モジュールを導入する。
G$2$RPOは既存のフローベースGRPOベースラインを著しく上回る。
論文 参考訳(メタデータ) (2025-10-02T12:57:12Z) - Risk-Sensitive RL for Alleviating Exploration Dilemmas in Large Language Models [22.50153462109328]
Reinforcement Learning with Verifiable Rewards (RLVR) は,Large Language Models (LLMs) の強化に有効であることが証明された。
リスク感性強化学習フレームワークを導入する。
提案手法では,平均と最大報酬を補間するリスク探索の手法を用いて,新しいアルゴリズムを提案する。
注目すべきは、RS-GRPOの実装が簡単で、マイナーなコード修正しか必要としないことだ。
論文 参考訳(メタデータ) (2025-09-29T04:12:20Z) - Depth-Breadth Synergy in RLVR: Unlocking LLM Reasoning Gains with Adaptive Exploration [61.350777880329815]
Reinforcement Learning with Verifiable Reward (RLVR)は、大規模言語モデルにおける推論能力をアンロックするための強力なパラダイムとして登場した。
RLVRの完全なポテンシャルは、モデルがサンプリングできる最も難しい深さと、単一のイテレーションで消費されるインスタンスの数という2つの未探索の次元によって妨げられていることを示す。
本稿では,多段ロールアウトによる難易度再重み付けを行うDARS(Difficulty Adaptive Rollout Smpling)を提案する。
論文 参考訳(メタデータ) (2025-08-19T11:51:40Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。