論文の概要: Not All Transitions Matter: Evidence from PPO
- arxiv url: http://arxiv.org/abs/2605.24071v2
- Date: Tue, 26 May 2026 03:46:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:40.989994
- Title: Not All Transitions Matter: Evidence from PPO
- Title(参考訳): すべての移行が重要でない - PPOからの証拠
- Authors: Ajhesh Basnet,
- Abstract要約: 政策上の強化学習エージェントの訓練は、更新毎に新しい経験を集めることを意味する。
ロールアウトの各状態は、エージェント自身のアクションによって因果的に連鎖された前の状態の直接出力である。
ロールアウトから一定数の遷移をランダムに落とすことで、報酬信号がそのまま残るようにし、繰り返し勾配構造を破り、トレーニングを安定させるのに十分であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training a reinforcement learning agent on-policy means collecting fresh experience at every update, and that experience comes with a hidden problem. Each state in a rollout is the direct output of the previous one, causally chained together by the agent's own actions. Because of this, consecutive transitions are never truly independent. They carry overlapping information, and the gradient signal the network receives ends up far more repetitive than the batch size suggests. The same directions get reinforced over and over, the value network struggles to keep up as the policy shifts, and training becomes quietly unstable in ways that reward curves alone rarely reveal. This paper asks whether that redundancy can simply be removed. We show that randomly dropping a fixed fraction of transitions from the rollout, at the right stage so the reward signal stays intact, is enough to break the repetitive gradient structure and stabilize training. The change is minimal: one sampling step, no new components, no modification to the core algorithm, and it works with any PPO implementation. Across five environments of increasing difficulty, CartPole-v1, Acrobot-v1, LunarLander-v2, HalfCheetah-v5, and Hopper-v5, the method matches vanilla PPO on reward while producing more consistent training dynamics across KL divergence, policy entropy, and value estimates. Dropping 25% of transitions turns out to be the sweet spot: enough to disrupt the redundancy, not enough to thin the batch.
- Abstract(参考訳): 政策上の強化学習エージェントの訓練は、更新毎に新しい経験を収集することであり、その経験には隠れた問題がある。
ロールアウトの各状態は、エージェント自身のアクションによって因果的に連鎖された前の状態の直接出力である。
このため、連続的な遷移は真の独立ではない。
それらは重なり合う情報を持ち、ネットワークが受信する勾配信号は、バッチサイズが示すよりもずっと反復的である。
同じ方向が何度も強化され、政策が変わるにつれて、価値ネットワークは追いつくのに苦労し、報酬曲線だけが滅多に現れない方法で、トレーニングは静かに不安定になる。
本稿では,その冗長性を単純に除去できるかどうかを問う。
ロールアウトから一定数の遷移をランダムに落とすことで、報酬信号がそのまま残るようにし、繰り返し勾配構造を破り、トレーニングを安定させるのに十分であることを示す。
1つのサンプリングステップ、新しいコンポーネント、コアアルゴリズムの変更がなく、任意のPPO実装で動作する。
CartPole-v1、Acrobot-v1、LunarLander-v2、HalfCheetah-v5、Hopper-v5の5つの環境において、この方法は報酬においてバニラPPOと一致し、KLのダイバージェンス、ポリシーエントロピー、価値見積をまたいだより一貫性のあるトレーニングダイナミクスを生成する。
移行の25%を落とすことが、スイートスポットであることが判明した: 冗長性を損なうには十分で、バッチを薄くするには不十分だ。
関連論文リスト
- Trust the Batch, On- or Off-Policy: Adaptive Policy Optimization for RL Post-Training [50.86545293331458]
強化学習は、教師付き学習よりも構造的に難しい。
本稿では,固定クリッピングを政策比率の正規化された有効サンプルサイズに置き換える,単純かつ効果的なバッチ適応目的を提案する。
論文 参考訳(メタデータ) (2026-05-12T16:44:47Z) - Robust Multi-Agent Path Finding under Observation Attacks: A Principled Adversarial-Plus-Smoothing Training Recipe [0.0]
同一ネットワークと同一デプロイメントループを保持する2つのトレーニングレシピを提示するが、ポリシーは混乱した観察の下で維持される。
最初のレシピであるAdv-PPOは、自身の入力の最悪ケース摂動に対する共有ポリシーを訓練し、敵の摂動下でのパフォーマンスによってチェックポイントを選択する。
第二のレシピであるAdv-PPO+MACER(英語版)は、ランダム化平滑化の証明された半径に従って勾配が続く小さな政治上の滑らかさ項のチェックポイントである。
論文 参考訳(メタデータ) (2026-05-12T03:33:34Z) - MARBLE: Multi-Aspect Reward Balance for Diffusion RL [71.6241143519038]
強化学習は、拡散モデルと人間の嗜好を整合させる主要なアプローチとなっている。
既存のプラクティスは、報酬ごとに1つのスペシャリストモデルをトレーニングすることで、複数の報酬を処理します。
我々は,各報酬に対する独立な優位推定器を維持する勾配空間最適化フレームワークMARBLEを提案する。
論文 参考訳(メタデータ) (2026-05-07T16:20:42Z) - Selective Rollout: Mid-Trajectory Termination for Multi-Sample Agent RL [6.435733307123974]
GRPO(Group-relative RL Training)は、トレーニングプロンプト毎に少数の並列ロールアウトをサンプリングする。
グループ内の報酬を拡大して、軌道ごとの利点を計算する。
プロンプトのロールアウトが同じ報酬で終わるとき、群は報酬の分散をゼロとし、勾配を持たない。
論文 参考訳(メタデータ) (2026-05-07T07:41:09Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - Topology-Aware Revival for Efficient Sparse Training [25.326221502692192]
Topology-Aware Revival (TAR) は、動的に切り替えることなく静的なスペーシングを改善する軽量のワンショット・ポスト・プルーニング・プロシージャである。
TARは静的スパースベースラインの最終的なリターンを最大+37.9%改善し、動的スパーストレーニングベースラインを+13.5%向上させた。
論文 参考訳(メタデータ) (2026-02-04T03:01:12Z) - Transform-Augmented GRPO Improves Pass@k [50.3707071191733]
グループ相対政策最適化(GRPO)は推論を改善するために設計されたが、2つの障害モードによって状況が悪化する。
本稿では,各質問に対して意味論的に等価な変換変種を生成するTA-GRPO(Transform-Augmented GRPO)を提案する。
このプール化された計算は、元の質問が簡単すぎるか難しすぎる場合でも、混合報酬を保証する一方、多様なフレーズのトレーニングは、複数のソリューション戦略を促進する。
論文 参考訳(メタデータ) (2026-01-30T02:43:29Z) - Training Transition Policies via Distribution Matching for Complex Tasks [7.310043452300736]
階層的強化学習は、複雑な課題を解決するための単純なタスクに対して、低レベルのポリシーを活用することを目指している。
我々は,次の政策が期待するものに合致する状態と行動の分布を生み出すことによって,下級政策を円滑に結び付ける移行政策を導入する。
従来の手法よりも成功率の高い下級政策を円滑に結び付けることを示す。
論文 参考訳(メタデータ) (2021-10-08T19:57:37Z) - Simplifying Deep Reinforcement Learning via Self-Supervision [51.2400839966489]
自己改善強化学習(Self-Supervised Reinforcement Learning, SSRL)は、純粋に監督された損失を伴うポリシーを最適化する単純なアルゴリズムである。
SSRLは、より安定した性能と実行時間の少ない現代アルゴリズムと驚くほど競合することを示す。
論文 参考訳(メタデータ) (2021-06-10T06:29:59Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。