論文の概要: Behavior Prior Representation learning for Offline Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2211.00863v1
- Date: Wed, 2 Nov 2022 04:15:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 12:25:45.802699
- Title: Behavior Prior Representation learning for Offline Reinforcement
Learning
- Title(参考訳): オフライン強化学習のための行動優先表現学習
- Authors: Hongyu Zang, Xin Li, Jie Yu, Chen Liu, Riashat Islam, Remi Tachet Des
Combes and Romain Laroche
- Abstract要約: 状態表現の学習にはシンプルで効果的なアプローチを導入する。
我々の手法である振舞い優先表現(BPR)は、データセットの振舞いクローニングに基づいて、容易に統合可能な目的で状態表現を学習する。
既存のオフラインRLアルゴリズムとBPRが組み合わさって、いくつかのオフライン制御ベンチマークにおいて大幅に改善されていることを示す。
- 参考スコア(独自算出の注目度): 23.200489608592694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (RL) struggles in environments with rich and
noisy inputs, where the agent only has access to a fixed dataset without
environment interactions. Past works have proposed common workarounds based on
the pre-training of state representations, followed by policy training. In this
work, we introduce a simple, yet effective approach for learning state
representations. Our method, Behavior Prior Representation (BPR), learns state
representations with an easy-to-integrate objective based on behavior cloning
of the dataset: we first learn a state representation by mimicking actions from
the dataset, and then train a policy on top of the fixed representation, using
any off-the-shelf Offline RL algorithm. Theoretically, we prove that BPR
carries out performance guarantees when integrated into algorithms that have
either policy improvement guarantees (conservative algorithms) or produce lower
bounds of the policy values (pessimistic algorithms). Empirically, we show that
BPR combined with existing state-of-the-art Offline RL algorithms leads to
significant improvements across several offline control benchmarks.
- Abstract(参考訳): オフライン強化学習(rl)は、エージェントが環境の相互作用なしに固定データセットへのアクセスしかできない、リッチでノイズの多い入力を持つ環境で問題となる。
過去の著作では、国家代表者の事前訓練と政策訓練に基づく共通の回避策を提案している。
本稿では,状態表現を学習するための単純かつ効果的なアプローチを提案する。
提案手法であるbehavior prior representation(bpr)は、データセットの動作クローニングに基づいて、容易に統合可能な目標で状態表現を学習する: まず、データセットからアクションを模倣して状態表現を学習し、その後、オフラインのrlアルゴリズムを使用して、固定表現の上にポリシーをトレーニングする。
理論的には、BPRがポリシー改善保証(保守的アルゴリズム)またはポリシー値の下位境界(悲観的アルゴリズム)を持つアルゴリズムに統合された場合、性能保証を行うことを示す。
実験により,既存のオフラインRLアルゴリズムとBPRが組み合わさって,オフライン制御ベンチマークにおいて大幅な改善が見られた。
関連論文リスト
- CDSA: Conservative Denoising Score-based Algorithm for Offline Reinforcement Learning [25.071018803326254]
オフラインの強化学習において、分散シフトは大きな障害である。
以前の保守的なオフラインRLアルゴリズムは、目に見えないアクションに一般化するのに苦労した。
本稿では、事前学習したオフラインRLアルゴリズムから生成されたデータセット密度の勾配場を用いて、元の動作を調整することを提案する。
論文 参考訳(メタデータ) (2024-06-11T17:59:29Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Reinforcement Learning with Sparse Rewards using Guidance from Offline
Demonstration [9.017416068706579]
実世界の強化学習(RL)における大きな課題は、報酬フィードバックの空間性である。
我々は,準最適行動ポリシーによって生成されたオフラインのデモデータを利用するアルゴリズムを開発した。
我々は、最先端アプローチよりもアルゴリズムの優れた性能を実証する。
論文 参考訳(メタデータ) (2022-02-09T18:45:40Z) - Dealing with the Unknown: Pessimistic Offline Reinforcement Learning [25.30634466168587]
本稿では, PessORLアルゴリズムを用いて, エージェントを慣れ親しんだ領域に積極的に誘導する手法を提案する。
我々は、アウト・オブ・ディストリビューション(OOD)状態に起因する問題に注目し、トレーニングデータセットに欠けている状態において、意図的に高い価値をペナルティ化する。
論文 参考訳(メタデータ) (2021-11-09T22:38:58Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。