論文の概要: CAWR: Corruption-Averse Advantage-Weighted Regression for Robust Policy Optimization
- arxiv url: http://arxiv.org/abs/2506.15654v1
- Date: Wed, 18 Jun 2025 17:31:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.762677
- Title: CAWR: Corruption-Averse Advantage-Weighted Regression for Robust Policy Optimization
- Title(参考訳): CAWR:ロバスト政策最適化のための破壊-逆アドバンテージ-重み付き回帰
- Authors: Ranting Hu,
- Abstract要約: 本稿では,データ破損による過保守政策の学習の可能性に焦点をあてる。
本稿では,政策最適化時のロバストな損失関数を組み込んだCAWR(Corruption-Averse Advantage-Weighted Regression)を提案する。
D4RLベンチマークの数値実験により,本手法が最適でないオフラインデータから優れたポリシーを学習できることが示されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (offline RL) algorithms often require additional constraints or penalty terms to address distribution shift issues, such as adding implicit or explicit policy constraints during policy optimization to reduce the estimation bias of functions. This paper focuses on a limitation of the Advantage-Weighted Regression family (AWRs), i.e., the potential for learning over-conservative policies due to data corruption, specifically the poor explorations in suboptimal offline data. We study it from two perspectives: (1) how poor explorations impact the theoretically optimal policy based on KL divergence, and (2) how such poor explorations affect the approximation of the theoretically optimal policy. We prove that such over-conservatism is mainly caused by the sensitivity of the loss function for policy optimization to poor explorations, and the proportion of poor explorations in offline datasets. To address this concern, we propose Corruption-Averse Advantage-Weighted Regression (CAWR), which incorporates a set of robust loss functions during policy optimization and an advantage-based prioritized experience replay method to filter out poor explorations. Numerical experiments on the D4RL benchmark show that our method can learn superior policies from suboptimal offline data, significantly enhancing the performance of policy optimization.
- Abstract(参考訳): オフライン強化学習(オフラインRL)アルゴリズムは、関数の推定バイアスを減らすためにポリシー最適化中に暗黙または明示的なポリシー制約を追加するなど、分散シフト問題に対処するために追加の制約やペナルティ条件を必要とすることが多い。
本稿では,データ破損による過保守的政策,特に準最適オフラインデータにおける貧弱な探索の可能性を,アドバンテージ・ウェイト・レグレッション・ファミリー(AWR)の限界に焦点をあてる。
本研究は,(1)KLの分岐に基づく理論的最適政策にどの程度の貧弱な探索が影響するか,(2)理論的最適政策の近似にどのように影響するか,という2つの観点から研究する。
このような過保守性は、政策最適化における損失関数の感度の低下と、オフラインのデータセットにおける粗悪な探索の割合が主な原因であることを示す。
この問題に対処するために、政策最適化中にロバストな損失関数のセットを組み込んだCorruption-Averse Advantage-Weighted Regression (CAWR)を提案する。
D4RLベンチマークの数値実験により,提案手法は最適でないオフラインデータから優れたポリシーを学習し,ポリシー最適化の性能を大幅に向上させることができることが示された。
関連論文リスト
- Behavior Preference Regression for Offline Reinforcement Learning [0.0]
オフライン強化学習(RL)手法は、固定データセットの軌跡のみにアクセスして最適なポリシーを学習することを目的としている。
政策制約法は、報酬の最大化と政策からの逸脱の最小化とのバランスをとる最適化問題として政策学習を定式化する。
オフラインRLに対する振る舞い回帰予測とペア比較のアプローチを適応する。
我々は、広く使われているD4RL LocomotionとAntmazeのデータセットと、より難しいV-D4RLスイートでBPRを実証的に評価した。
論文 参考訳(メタデータ) (2025-03-02T15:13:02Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。