論文の概要: Offline Imitation Learning with Suboptimal Demonstrations via Relaxed
Distribution Matching
- arxiv url: http://arxiv.org/abs/2303.02569v1
- Date: Sun, 5 Mar 2023 03:35:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 18:51:39.226443
- Title: Offline Imitation Learning with Suboptimal Demonstrations via Relaxed
Distribution Matching
- Title(参考訳): relaxed distribution matching によるサブオプティマイズによるオフライン模倣学習
- Authors: Lantao Yu, Tianhe Yu, Jiaming Song, Willie Neiswanger, Stefano Ermon
- Abstract要約: オフライン模倣学習(IL)は、環境と相互作用することなく、事前にコンパイルされたデモからパフォーマンスポリシーを学習する機能を提供する。
非対称な f-分割を明示的なサポート正規化に用いたRelaxDICEを提案する。
提案手法は,6つの標準連続制御環境において,最上位のオフライン手法を著しく上回っている。
- 参考スコア(独自算出の注目度): 109.5084863685397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline imitation learning (IL) promises the ability to learn performant
policies from pre-collected demonstrations without interactions with the
environment. However, imitating behaviors fully offline typically requires
numerous expert data. To tackle this issue, we study the setting where we have
limited expert data and supplementary suboptimal data. In this case, a
well-known issue is the distribution shift between the learned policy and the
behavior policy that collects the offline data. Prior works mitigate this issue
by regularizing the KL divergence between the stationary state-action
distributions of the learned policy and the behavior policy. We argue that such
constraints based on exact distribution matching can be overly conservative and
hamper policy learning, especially when the imperfect offline data is highly
suboptimal. To resolve this issue, we present RelaxDICE, which employs an
asymmetrically-relaxed f-divergence for explicit support regularization.
Specifically, instead of driving the learned policy to exactly match the
behavior policy, we impose little penalty whenever the density ratio between
their stationary state-action distributions is upper bounded by a constant.
Note that such formulation leads to a nested min-max optimization problem,
which causes instability in practice. RelaxDICE addresses this challenge by
supporting a closed-form solution for the inner maximization problem. Extensive
empirical study shows that our method significantly outperforms the best prior
offline IL method in six standard continuous control environments with over 30%
performance gain on average, across 22 settings where the imperfect dataset is
highly suboptimal.
- Abstract(参考訳): オフライン模倣学習(il)は、環境とのインタラクションなしに、事前に収集したデモから実行中のポリシーを学習できることを約束する。
しかし、完全にオフラインで振る舞うには、多くの専門家データが必要である。
この問題に取り組むために,我々はエキスパートデータと補足的な副最適化データに制限のある設定について検討する。
この場合、よく知られた問題は、学習したポリシーとオフラインデータを収集する行動ポリシーの間の分配シフトである。
先行研究は、学習方針と行動方針の定常状態-行動分布間のKLのばらつきを規則化し、この問題を軽減する。
正確な分布マッチングに基づく制約は、特に不完全なオフラインデータが極端に最適である場合、過度に保守的でポリシー学習を妨げる可能性がある。
この問題を解決するため,我々は,明示的なサポート正規化に非対称なf-divergenceを用いるrelaxdiceを提案する。
具体的には、学習した政策を正確に行動ポリシーに適合させる代わりに、定常状態-作用分布間の密度比が一定値に上限付けられた場合、ほとんどペナルティを課さない。
このような定式化がネストされた min-max 最適化問題を引き起こすことに注意。
RelaxDICEはこの課題に対処し、内部最大化問題に対する閉形式解をサポートする。
実験結果から,提案手法は6つの標準連続制御環境において,不完全なデータセットが最適でない22の環境において,平均30%以上の性能向上を達成し,最も優れたオフラインIL法よりも優れていた。
関連論文リスト
- Adaptive Advantage-Guided Policy Regularization for Offline Reinforcement Learning [12.112619241073158]
オフラインの強化学習では、アウト・オブ・ディストリビューションの課題が強調される。
既存の手法は、しばしば政策規則化を通じて学習されたポリシーを制約する。
適応アドバンテージ誘導政策正規化(A2PR)を提案する。
論文 参考訳(メタデータ) (2024-05-30T10:20:55Z) - Hundreds Guide Millions: Adaptive Offline Reinforcement Learning with
Expert Guidance [74.31779732754697]
本稿では,GORL ( Guided Offline RL) という新しいプラグイン手法を提案する。
GORLは、いくつかの専門家によるデモンストレーションとともにガイドネットワークを使用し、各サンプルに対する政策改善と政策制約の相対的重要性を適応的に決定する。
様々な環境での実験により、GORLは統計的に有意な性能改善を伴い、ほとんどのオフラインRLアルゴリズムに容易にインストール可能であることが示唆された。
論文 参考訳(メタデータ) (2023-09-04T08:59:04Z) - Efficient Policy Evaluation with Offline Data Informed Behavior Policy Design [18.326126953667842]
オンラインモンテカルロ推定器のデータ効率を向上させる新しい手法を提案する。
まず,オンラインモンテカルロ推定器のばらつきを確実に低減する閉形式行動ポリシーを提案する。
次に、以前に収集したオフラインデータから、このクローズドフォームの動作ポリシーを学習するための効率的なアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-01-31T16:12:31Z) - Offline RL With Realistic Datasets: Heteroskedasticity and Support
Constraints [82.43359506154117]
非均一な変数を持つデータから、典型的なオフライン強化学習手法が学習できないことを示す。
提案手法は,Atariゲーム,ナビゲーション,ピクセルベースの操作において,多種多様なオフラインRL問題にまたがる性能向上を図っている。
論文 参考訳(メタデータ) (2022-11-02T11:36:06Z) - Mutual Information Regularized Offline Reinforcement Learning [76.05299071490913]
我々は、データセットにおける状態と行動間の相互情報の観点から、オフラインRLにアプローチする新しいMISAフレームワークを提案する。
この下位境界の最適化は、オフラインデータセット上での一段階改善されたポリシーの可能性の最大化と等価であることを示す。
MISAの3つの異なる変種を導入し、より厳密な相互情報によりオフラインのRL性能が向上することを示した。
論文 参考訳(メタデータ) (2022-10-14T03:22:43Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - BRAC+: Improved Behavior Regularized Actor Critic for Offline
Reinforcement Learning [14.432131909590824]
オフライン強化学習は、以前に収集したデータセットを使用して効果的なポリシーをトレーニングすることを目的としている。
標準的なオフ・ポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(探索されていない)アクションの値を過大評価する傾向がある。
動作の規則化によるオフライン強化学習を改善し,BRAC+を提案する。
論文 参考訳(メタデータ) (2021-10-02T23:55:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。