論文の概要: Offline Reinforcement Learning via High-Fidelity Generative Behavior
Modeling
- arxiv url: http://arxiv.org/abs/2209.14548v1
- Date: Thu, 29 Sep 2022 04:36:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 17:39:38.118367
- Title: Offline Reinforcement Learning via High-Fidelity Generative Behavior
Modeling
- Title(参考訳): 高忠実性生成行動モデリングによるオフライン強化学習
- Authors: Huayu Chen, Cheng Lu, Chengyang Ying, Hang Su and Jun Zhu
- Abstract要約: 政策モデルの分布表現性に制限があるため,従来の手法はトレーニング中にも見つからない行動を選択する可能性がある。
我々は,学習方針を表現的生成行動モデルと行動評価モデルという2つの部分に分解して生成的アプローチを採用する。
提案手法は,最先端のオフラインRL法と比較して,競争力や優れた性能を実現する。
- 参考スコア(独自算出の注目度): 34.88897402357158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In offline reinforcement learning, weighted regression is a common method to
ensure the learned policy stays close to the behavior policy and to prevent
selecting out-of-sample actions. In this work, we show that due to the limited
distributional expressivity of policy models, previous methods might still
select unseen actions during training, which deviates from their initial
motivation. To address this problem, we adopt a generative approach by
decoupling the learned policy into two parts: an expressive generative behavior
model and an action evaluation model. The key insight is that such decoupling
avoids learning an explicitly parameterized policy model with a closed-form
expression. Directly learning the behavior policy allows us to leverage
existing advances in generative modeling, such as diffusion-based methods, to
model diverse behaviors. As for action evaluation, we combine our method with
an in-sample planning technique to further avoid selecting out-of-sample
actions and increase computational efficiency. Experimental results on D4RL
datasets show that our proposed method achieves competitive or superior
performance compared with state-of-the-art offline RL methods, especially in
complex tasks such as AntMaze. We also empirically demonstrate that our method
can successfully learn from a heterogeneous dataset containing multiple
distinctive but similarly successful strategies, whereas previous unimodal
policies fail.
- Abstract(参考訳): オフライン強化学習では、重み付け回帰は、学習されたポリシーが行動方針に近づき、サンプル外の行動を選択するのを防ぐための一般的な方法である。
本研究は,政策モデルの分布表現性に制限があるため,従来の手法では,初期モチベーションから逸脱した未確認行動を選択することができることを示す。
この問題に対処するために,我々は学習方針を表現的生成行動モデルと行動評価モデルという2つの部分に分解して生成的アプローチを採用する。
鍵となる洞察は、そのような疎結合は、クローズドフォーム表現で明示的にパラメータ化されたポリシーモデルを学ぶことを避けることである。
行動ポリシーを直接学習することで、拡散法などの生成モデリングにおける既存の進歩を活用し、多様な振る舞いをモデル化することができる。
動作評価では,本手法をサンプル内計画手法と組み合わせて,サンプル外動作の選択を回避し,計算効率を向上する。
D4RLデータセットに対する実験結果から,提案手法は最先端のオフラインRL手法と比較して,特にAntMazeのような複雑なタスクにおいて,競争力や優れた性能を実現することが示された。
また,本手法が複数の特徴的かつ類似的な戦略を含む異種データセットから学習できることを実証的に実証した。
関連論文リスト
- Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Behavior Estimation from Multi-Source Data for Offline Reinforcement
Learning [20.143230846339804]
行動推定は、トレーニングデータを生成するポリシーを推定することを目的としている。
この研究は、データを複数のソースから収集するシナリオについて考察する。
本研究は広範囲な評価により,行動不特定性の存在と,提案モデルの有効性を確認した。
論文 参考訳(メタデータ) (2022-11-29T10:41:44Z) - Random Actions vs Random Policies: Bootstrapping Model-Based Direct
Policy Search [0.0]
本稿では,初期データ収集手法がその後の力学モデルの学習に与える影響について検討する。
ダイナミクスモデルは、モデル上で直接ポリシー探索を行うために、与えられたタスクの真の遷移関数を近似する。
論文 参考訳(メタデータ) (2022-10-21T08:26:10Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Know Your Boundaries: The Necessity of Explicit Behavioral Cloning in
Offline RL [28.563015766188478]
本稿では,価値学習を制約する行動ポリシーを明示的にクローンするオフライン強化学習アルゴリズムを提案する。
D4RL と Robomimic ベンチマークのいくつかのデータセットで最先端の性能を示す。
論文 参考訳(メタデータ) (2022-06-01T18:04:43Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。