論文の概要: Hypercube Policy Regularization Framework for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2411.04534v1
- Date: Thu, 07 Nov 2024 08:48:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:37:59.502104
- Title: Hypercube Policy Regularization Framework for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のためのハイパーキューブポリシー正規化フレームワーク
- Authors: Yi Shen, Hanyan Huang,
- Abstract要約: 本稿では,ハイパーキューブポリシーの正規化フレームワークを提案する。
これにより、エージェントは静的データセット内の同様の状態に対応するアクションを探索できる。
ハイパーキューブポリシーの正規化フレームワークは,元のアルゴリズムの性能を効果的に向上させることができることが理論的に実証された。
- 参考スコア(独自算出の注目度): 2.01030009289749
- License:
- Abstract: Offline reinforcement learning has received extensive attention from scholars because it avoids the interaction between the agent and the environment by learning a policy through a static dataset. However, general reinforcement learning methods cannot get satisfactory results in offline reinforcement learning due to the out-of-distribution state actions that the dataset cannot cover during training. To solve this problem, the policy regularization method that tries to directly clone policies used in static datasets has received numerous studies due to its simplicity and effectiveness. However, policy constraint methods make the agent choose the corresponding actions in the static dataset. This type of constraint is usually over-conservative, which results in suboptimal policies, especially in low-quality static datasets. In this paper, a hypercube policy regularization framework is proposed, this method alleviates the constraints of policy constraint methods by allowing the agent to explore the actions corresponding to similar states in the static dataset, which increases the effectiveness of algorithms in low-quality datasets. It was also theoretically demonstrated that the hypercube policy regularization framework can effectively improve the performance of original algorithms. In addition, the hypercube policy regularization framework is combined with TD3-BC and Diffusion-QL for experiments on D4RL datasets which are called TD3-BC-C and Diffusion-QL-C. The experimental results of the score demonstrate that TD3-BC-C and Diffusion-QL-C perform better than state-of-the-art algorithms like IQL, CQL, TD3-BC and Diffusion-QL in most D4RL environments in approximate time.
- Abstract(参考訳): オフライン強化学習は静的データセットを通してポリシーを学習することでエージェントと環境の相互作用を避けるため、学者から広く注目を集めている。
しかし、トレーニング中にデータセットがカバーできないアウト・オブ・ディストリビューション状態の動作により、オフラインの強化学習において、一般的な強化学習方法は満足のいく結果を得ることができない。
この問題を解決するために、静的データセットで使われるポリシーを直接クローンしようとするポリシー正則化法は、その単純さと有効性から多くの研究がなされている。
しかし、ポリシー制約手法により、エージェントは静的データセット内の対応するアクションを選択する。
この種の制約は通常、過保守であり、特に低品質な静的データセットにおいて、最適以下のポリシーをもたらす。
本稿では,ハイパーキューブポリシーの規則化フレームワークを提案し,エージェントが静的データセットの類似状態に対応する動作を探索することで,ポリシー制約手法の制約を緩和し,低品質データセットにおけるアルゴリズムの有効性を高める。
また、ハイパーキューブポリシーの正規化フレームワークが元のアルゴリズムの性能を効果的に向上できることが理論的に実証された。
さらに、ハイパーキューブポリシー正規化フレームワークは、TD3-BCとDiffusion-QL-Cと呼ばれるD4RLデータセットの実験のために、TD3-BCとDiffusion-QL-QLと組み合わせられている。
実験結果から、ほとんどのD4RL環境において、TD3-BC-CとDiffusion-QL-Cは、最先端のアルゴリズムであるIQL、CQL、TD3-BC、Diffusion-QLよりも近似時間でパフォーマンスがよいことが示された。
関連論文リスト
- SelfBC: Self Behavior Cloning for Offline Reinforcement Learning [14.573290839055316]
本研究では,これまでに学習したポリシーの指数的移動平均によって生成されたサンプルに対して,学習したポリシーを制約する新しい動的ポリシー制約を提案する。
我々のアプローチは、ほぼ単調に改善された参照ポリシーをもたらす。
論文 参考訳(メタデータ) (2024-08-04T23:23:48Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - Bi-Level Offline Policy Optimization with Limited Exploration [1.8130068086063336]
我々は、固定された事前コンパイルされたデータセットに基づいて良いポリシーを学習しようとするオフライン強化学習(RL)について研究する。
ポリシー(上層)と値関数(下層)の階層的相互作用をモデル化する2レベル構造化ポリシー最適化アルゴリズムを提案する。
我々は、オフラインRLのための合成、ベンチマーク、実世界のデータセットを混合して評価し、最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2023-10-10T02:45:50Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Offline Imitation Learning with Suboptimal Demonstrations via Relaxed
Distribution Matching [109.5084863685397]
オフライン模倣学習(IL)は、環境と相互作用することなく、事前にコンパイルされたデモからパフォーマンスポリシーを学習する機能を提供する。
非対称な f-分割を明示的なサポート正規化に用いたRelaxDICEを提案する。
提案手法は,6つの標準連続制御環境において,最上位のオフライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-03-05T03:35:11Z) - Model-based trajectory stitching for improved behavioural cloning and
its applications [7.462336024223669]
トラジェクティブ・スティッチング(TS)は、元のデータで切断された状態のペアを縫い合わせることで、新しいトラジェクトリを生成する。
古い軌道を新しい軌道に置き換える反復的プロセスが、基礎となる行動方針を漸進的に改善することを示した。
論文 参考訳(メタデータ) (2022-12-08T14:18:04Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。