論文の概要: Moments Matter:Stabilizing Policy Optimization using Return Distributions
- arxiv url: http://arxiv.org/abs/2601.01803v1
- Date: Mon, 05 Jan 2026 05:27:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.77273
- Title: Moments Matter:Stabilizing Policy Optimization using Return Distributions
- Title(参考訳): モーメントの課題:リターン分布を用いた政策最適化の安定化
- Authors: Dennis Jabs, Aditya Mohan, Marius Lindauer,
- Abstract要約: 連続制御タスクでは、小さなパラメータシフトでさえ不安定な歩行を生み出す。
環境に配慮した代替案を提案する。
- 参考スコア(独自算出の注目度): 9.430246534202857
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Reinforcement Learning (RL) agents often learn policies that achieve the same episodic return yet behave very differently, due to a combination of environmental (random transitions, initial conditions, reward noise) and algorithmic (minibatch selection, exploration noise) factors. In continuous control tasks, even small parameter shifts can produce unstable gaits, complicating both algorithm comparison and real-world transfer. Previous work has shown that such instability arises when policy updates traverse noisy neighborhoods and that the spread of post-update return distribution $R(θ)$, obtained by repeatedly sampling minibatches, updating $θ$, and measuring final returns, is a useful indicator of this noise. Although explicitly constraining the policy to maintain a narrow $R(θ)$ can improve stability, directly estimating $R(θ)$ is computationally expensive in high-dimensional settings. We propose an alternative that takes advantage of environmental stochasticity to mitigate update-induced variability. Specifically, we model state-action return distribution through a distributional critic and then bias the advantage function of PPO using higher-order moments (skewness and kurtosis) of this distribution. By penalizing extreme tail behaviors, our method discourages policies from entering parameter regimes prone to instability. We hypothesize that in environments where post-update critic values align poorly with post-update returns, standard PPO struggles to produce a narrow $R(θ)$. In such cases, our moment-based correction narrows $R(θ)$, improving stability by up to 75% in Walker2D, while preserving comparable evaluation returns.
- Abstract(参考訳): 深層強化学習(Deep Reinforcement Learning, RL)エージェントは、環境(ランダム遷移、初期条件、報奨ノイズ)とアルゴリズム(ミニバッチ選択、探索ノイズ)要素の組み合わせにより、同じエピソジックリターンを達成するポリシーを学ぶが、非常に異なる振る舞いをすることが多い。
連続制御タスクでは、小さなパラメータシフトでさえ不安定な歩行を生じさせ、アルゴリズムの比較と実世界の移動の両方を複雑にする。
従来の研究では、政策更新がノイズの多い地区を横切るときに発生する不安定性や、ミニバッチを繰り返しサンプリングし、$θ$を更新し、最終的なリターンを測定することで得られた更新後のリターン分布$R(θ)$の拡散が、このノイズの有用な指標であることが示された。
狭義の$R(θ)$を維持するポリシーを明示的に制約することは安定性を向上させることができるが、高次元の設定では直接$R(θ)$を推定することは計算的に高価である。
本稿では,環境確率を利用して更新に伴う変動を緩和する手法を提案する。
具体的には,この分布の高次モーメント(歪と曲率)を用いて,PPOの利点関数をバイアスする。
極端に尾の挙動を罰することにより,パラメータ状態の入力が不安定になりやすいことを回避できる。
更新後の批判値が更新後のリターンとよく一致しない環境では、標準的なPPOはR(θ)$を狭くするのに苦労する、という仮説を立てる。
このような場合、モーメントベースの補正は$R(θ)$を狭め、ウォーカー2Dの安定性を最大75%向上させ、同等の評価値を保存する。
関連論文リスト
- Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning [55.15106182268834]
検証可能な報奨付き強化学習(RLVR)が,大規模言語モデルにおける推論能力向上のための主要なアプローチとして登場した。
ロールアウト生成は恥ずかしく並列であり、メモリライトであるのに対して、ポリシー更新は通信量が多く、メモリ集約的である。
PODS(Policy Optimization with Down-Sampling)を導入し、戦略的に選択されたロールアウトサブセットでのみトレーニングすることで、ポリシー更新からロールアウト生成を分離する。
論文 参考訳(メタデータ) (2025-04-18T17:49:55Z) - Distributionally Robust Policy Learning under Concept Drifts [33.44768994272614]
本稿では、より曖昧な問題、つまり、コンセプトドリフトの下でのロバストな政策学習について研究する。
まず、与えられた政策の最悪の平均報酬を評価するための2倍のロバスト推定器を提供する。
次に、所定のポリシークラス内で推定されたポリシー値を最大化するポリシーを出力する学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-18T19:53:56Z) - Near-Optimal Dynamic Regret for Adversarial Linear Mixture MDPs [63.47351876442425]
本研究は,完全情報フィードバックの下で,相変わらずの相変わらずの線形混合MDPについて検討した。
本稿では,占領率に基づく手法と政策に基づく手法の利点を組み合わせた新しいアルゴリズムを提案する。
我々のアルゴリズムは$widetildemathcalO(d sqrtH3 K + sqrtHK(H + barP_K$)$ dynamic regret, ここで$d$は特徴次元である。
論文 参考訳(メタデータ) (2024-11-05T13:55:52Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Autoregressive Bandits [58.46584210388307]
本稿では,オンライン学習環境であるAutoregressive Banditsを提案する。
報酬プロセスの軽微な仮定の下では、最適ポリシーを便利に計算できることが示される。
次に、新しい楽観的後悔最小化アルゴリズム、すなわちAutoRegressive Upper Confidence Bound (AR-UCB)を考案し、$widetildemathcalO left( frac(k+1)3/2sqrtnT (1-G)のサブ線形後悔を被る。
論文 参考訳(メタデータ) (2022-12-12T21:37:36Z) - Global Optimality and Finite Sample Analysis of Softmax Off-Policy Actor Critic under State Distribution Mismatch [26.23228392999382]
我々は、非政治アクター批評家アルゴリズムのグローバル最適性と収束率を確立する。
私たちの研究は、政策勾配法の最適性に関する既存の研究を超えています。
論文 参考訳(メタデータ) (2021-11-04T16:48:45Z) - Variance Penalized On-Policy and Off-Policy Actor-Critic [60.06593931848165]
本稿では,平均値と変動値の両方を含むパフォーマンス基準を最適化する,オン・ポリティィおよびオフ・ポリティィ・アクター・クリティカルなアルゴリズムを提案する。
提案手法は, アクタ批判的かつ事前の分散-ペナライゼーションベースラインに匹敵するだけでなく, リターンのばらつきが低いトラジェクトリも生成する。
論文 参考訳(メタデータ) (2021-02-03T10:06:16Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。