論文の概要: Off-Policy Learning to Reason Works Because It Is More Pessimistic Than You Think
- arxiv url: http://arxiv.org/abs/2605.28150v1
- Date: Wed, 27 May 2026 08:33:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.895926
- Title: Off-Policy Learning to Reason Works Because It Is More Pessimistic Than You Think
- Title(参考訳): 役立たずの学習は、あなたが想像するよりも悲観的だからだ。
- Authors: Otmane Sakhi, Aleksei Arzhantsev, Imad Aouali, Flavian Vasile,
- Abstract要約: 政治以外の目的を達成することを含む、政治以外の目的を直感的に構築する。
これらの効果は暗黙の悲観主義によって理解できることを示す。
次に、この誘導分布を安定化し、非政治学習を改善するための原則的な修正を提案する。
- 参考スコア(独自算出の注目度): 6.011610712471053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large scale reinforcement learning has become a central tool for improving reasoning in large language models. At this scale, generation is often lagged or asynchronous, so updates are performed on data collected by older policies. This makes learning inherently off-policy. Most existing approaches nevertheless remain rooted in PPO-style trust-region objectives, treating training as approximately on-policy and using importance weights to correct distribution mismatch. These corrections can introduce high variance, destabilize optimization, and accelerate entropy collapse. Recent work suggests an alternative: rather than correcting the mismatch, one can embrace off-policy data and remove importance weights, often yielding stronger algorithms. In this paper, we provide an intuitive construction of off-policy objectives that include successful off-policy objectives and show that their effectiveness can be understood through implicit pessimism: they optimize toward target policies that are more conservative than their nominal objectives suggest. This perspective explains why some particular implementation choices improve stability: they implicitly control the effective target distribution. We then propose a principled modification that stabilize this induced distribution and improve off-policy learning.
- Abstract(参考訳): 大規模強化学習は、大規模言語モデルにおける推論を改善する中心的なツールとなっている。
このスケールでは、生成はラグや非同期化されることが多いため、古いポリシーによって収集されたデータ上で更新が行われる。
これにより、学習は本質的に政治とは無関係になる。
それにもかかわらず、既存のアプローチのほとんどは、PPOスタイルの信頼領域目標に根ざし、トレーニングをほぼオンラインとして扱い、重要な重み付けを使用して分布ミスマッチを正す。
これらの補正は、高い分散を導入し、最適化を不安定化し、エントロピー崩壊を加速することができる。
ミスマッチを訂正するのではなく、非政治的なデータを受け入れ、重要な重みを取り除き、しばしばより強力なアルゴリズムを生み出すことができる。
本稿では、政治以外の目的を成功させ、その効果が暗黙の悲観主義によって理解可能であることを示す、政治以外の目的を直感的に構築する。
この視点は、ある特定の実装選択が安定性を改善する理由を説明している。
次に、この誘導分布を安定化し、非政治学習を改善するための原則的な修正を提案する。
関連論文リスト
- Trust the Batch, On- or Off-Policy: Adaptive Policy Optimization for RL Post-Training [50.86545293331458]
強化学習は、教師付き学習よりも構造的に難しい。
本稿では,固定クリッピングを政策比率の正規化された有効サンプルサイズに置き換える,単純かつ効果的なバッチ適応目的を提案する。
論文 参考訳(メタデータ) (2026-05-12T16:44:47Z) - Policy Improvement Reinforcement Learning [40.05196753615896]
Reinforcement Learning with Verifiable Rewards (RLVR) は、大規模言語モデルの推論能力を改善するためのトレーニング後の中心的なパラダイムとなっている。
既存のメソッドは共通の盲点を共有している: 結果の更新によってモデルが実際に改善されたかどうかを検証することなく、即時のグループレベルまたはバッチレベルの統計に基づいてポリシーを最適化する。
我々は、政策改善のフィードバックが欠落していること、すなわち、中間段階の進捗を直接測定し、最適化する能力が欠けていることを論じる。
論文 参考訳(メタデータ) (2026-04-01T13:10:20Z) - Adaptive Layerwise Perturbation: Unifying Off-Policy Corrections for LLM RL [26.49103739671071]
政策の不安定さやトレーニング推論ミスマッチといった非政治的な問題は、トレーニングの安定性の大きなボトルネックとなっている。
更新中に各レイヤの入力隠れ状態に小さな学習可能な摂動を注入することにより、適応層摂動(ALP)を提案する。
ALPは、更新されたポリシーが推論ポリシーから過度に逸脱することを防ぎ、推論ポリシーファミリをミスマッチノイズでカバーするようにポリシーファミリを拡大する。
論文 参考訳(メタデータ) (2026-03-19T21:04:17Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - Polychromic Objectives for Reinforcement Learning [63.37185057794815]
強化学習微調整(Reinforcement Learning fine-tuning, RLFT)は、下流タスクの事前訓練されたポリシーを改善するための主要なパラダイムである。
多様な世代の探索・改良を明示的に実施する政策手法の目的について紹介する。
この目的を最適化するために、PPO(Pximal Policy Optimization)をどのように適用できるかを示す。
論文 参考訳(メタデータ) (2025-09-29T19:32:11Z) - Mind the Gap: Data Rewriting for Stable Off-Policy Supervised Fine-Tuning [33.899779762210976]
大規模言語モデルの教師付き微調整(SFT)は、非政治的な学習問題と見なすことができる。
既存の方法では、ギャップを積極的に減らすのではなく、パッシブに更新するKLペナルティやクリッピングによってこの問題を軽減する。
本稿では,トレーニング前の政策ギャップを積極的に縮小する,シンプルで効果的なデータ書き換えフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-18T17:02:30Z) - On-Policy RL with Optimal Reward Baseline [109.47676554514193]
On-Policy RL with Optimal reward baseline (OPO) は、新しい簡易強化学習アルゴリズムである。
OPOは、訓練プロセスを実証的に安定化し、探索を強化する、正確なオンライントレーニングの重要性を強調している。
その結果、OPOの優れた性能と訓練安定性を、追加のモデルや正規化条件なしで示すことができた。
論文 参考訳(メタデータ) (2025-05-29T15:58:04Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Offline Contextual Bandits with Overparameterized Models [52.788628474552276]
オフラインの文脈的盗賊にも同じ現象が起こるかどうかを問う。
この相違は, 目的の強調安定性によるものであることを示す。
大規模なニューラルネットワークを用いた実験では、アクション安定な値ベース目標と不安定なポリシベース目標とのギャップは、大きなパフォーマンス差をもたらす。
論文 参考訳(メタデータ) (2020-06-27T13:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。