論文の概要: Know Your Boundaries: The Necessity of Explicit Behavioral Cloning in
Offline RL
- arxiv url: http://arxiv.org/abs/2206.00695v1
- Date: Wed, 1 Jun 2022 18:04:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 14:31:17.100110
- Title: Know Your Boundaries: The Necessity of Explicit Behavioral Cloning in
Offline RL
- Title(参考訳): 境界を知る: オフラインrlにおける明示的な行動クローニングの必要性
- Authors: Wonjoon Goo, Scott Niekum
- Abstract要約: 本稿では,価値学習を制約する行動ポリシーを明示的にクローンするオフライン強化学習アルゴリズムを提案する。
D4RL と Robomimic ベンチマークのいくつかのデータセットで最先端の性能を示す。
- 参考スコア(独自算出の注目度): 28.563015766188478
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce an offline reinforcement learning (RL) algorithm that explicitly
clones a behavior policy to constrain value learning. In offline RL, it is
often important to prevent a policy from selecting unobserved actions, since
the consequence of these actions cannot be presumed without additional
information about the environment. One straightforward way to implement such a
constraint is to explicitly model a given data distribution via behavior
cloning and directly force a policy not to select uncertain actions. However,
many offline RL methods instantiate the constraint indirectly -- for example,
pessimistic value estimation -- due to a concern about errors when modeling a
potentially complex behavior policy. In this work, we argue that it is not only
viable but beneficial to explicitly model the behavior policy for offline RL
because the constraint can be realized in a stable way with the trained model.
We first suggest a theoretical framework that allows us to incorporate
behavior-cloned models into value-based offline RL methods, enjoying the
strength of both explicit behavior cloning and value learning. Then, we propose
a practical method utilizing a score-based generative model for behavior
cloning. With the proposed method, we show state-of-the-art performance on
several datasets within the D4RL and Robomimic benchmarks and achieve
competitive performance across all datasets tested.
- Abstract(参考訳): 我々は,価値学習を制約する行動ポリシーを明示的にクローンするオフライン強化学習(rl)アルゴリズムを提案する。
オフラインRLでは、環境に関する追加情報なしでは、これらのアクションの結果を推定できないため、ポリシーが観測されていないアクションを選択するのを防ぐことがしばしば重要である。
このような制約を実装する直接的な方法の1つは、振る舞いのクローンを通して与えられたデータ分散を明示的にモデル化し、不確実なアクションを選択しないようポリシーを直接強制することである。
しかし、多くのオフラインRLメソッドは、潜在的に複雑な振る舞いポリシーをモデル化する際のエラーに関する懸念から、間接的に制約をインスタンス化する。
この研究では、制約をトレーニングされたモデルで安定的に実現できるため、オフラインrlの動作ポリシーを明示的にモデル化することは可能であるだけでなく、有益であると主張する。
まず、行動閉ざされたモデルを値ベースのオフラインRL手法に組み込むことで、明示的な行動クローニングと価値学習の両方の強みを享受できる理論フレームワークを提案する。
そこで本研究では,スコアに基づく生成モデルを用いた行動クローニング手法を提案する。
提案手法では,D4RL と Robomimic ベンチマーク内の複数のデータセットに対して最先端の性能を示し,テスト対象のデータセット間での競合性能を実現する。
関連論文リスト
- Offline RL With Realistic Datasets: Heteroskedasticity and Support
Constraints [82.43359506154117]
非均一な変数を持つデータから、典型的なオフライン強化学習手法が学習できないことを示す。
提案手法は,Atariゲーム,ナビゲーション,ピクセルベースの操作において,多種多様なオフラインRL問題にまたがる性能向上を図っている。
論文 参考訳(メタデータ) (2022-11-02T11:36:06Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - Offline Reinforcement Learning via High-Fidelity Generative Behavior
Modeling [34.88897402357158]
政策モデルの分布表現性に制限があるため,従来の手法はトレーニング中にも見つからない行動を選択する可能性がある。
我々は,学習方針を表現的生成行動モデルと行動評価モデルという2つの部分に分解して生成的アプローチを採用する。
提案手法は,最先端のオフラインRL法と比較して,競争力や優れた性能を実現する。
論文 参考訳(メタデータ) (2022-09-29T04:36:23Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - The Least Restriction for Offline Reinforcement Learning [0.0]
我々は、創造的なオフライン強化学習フレームワーク、Least Restriction (LR)を提案する。
LRは、アクションを選択することを確率分布からサンプルを取るとみなす。
ランダムとサブ最適のデモを含む、さまざまなオフラインデータセットから堅牢に学習することができる。
論文 参考訳(メタデータ) (2021-07-05T01:50:40Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。