論文の概要: Latent-Variable Advantage-Weighted Policy Optimization for Offline RL
- arxiv url: http://arxiv.org/abs/2203.08949v1
- Date: Wed, 16 Mar 2022 21:17:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-18 15:19:37.884018
- Title: Latent-Variable Advantage-Weighted Policy Optimization for Offline RL
- Title(参考訳): オフラインRLの潜在変数アドバンテージ重み付けポリシ最適化
- Authors: Xi Chen, Ali Ghadirzadeh, Tianhe Yu, Yuan Gao, Jianhao Wang, Wenzhe
Li, Bin Liang, Chelsea Finn and Chongjie Zhang
- Abstract要約: オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
- 参考スコア(独自算出の注目度): 70.01851346635637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning methods hold the promise of learning policies
from pre-collected datasets without the need to query the environment for new
transitions. This setting is particularly well-suited for continuous control
robotic applications for which online data collection based on trial-and-error
is costly and potentially unsafe. In practice, offline datasets are often
heterogeneous, i.e., collected in a variety of scenarios, such as data from
several human demonstrators or from policies that act with different purposes.
Unfortunately, such datasets can exacerbate the distribution shift between the
behavior policy underlying the data and the optimal policy to be learned,
leading to poor performance. To address this challenge, we propose to leverage
latent-variable policies that can represent a broader class of policy
distributions, leading to better adherence to the training data distribution
while maximizing reward via a policy over the latent variable. As we
empirically show on a range of simulated locomotion, navigation, and
manipulation tasks, our method referred to as latent-variable
advantage-weighted policy optimization (LAPO), improves the average performance
of the next best-performing offline reinforcement learning methods by 49% on
heterogeneous datasets, and by 8% on datasets with narrow and biased
distributions.
- Abstract(参考訳): オフライン強化学習手法は、新しい移行を環境に問い合わせる必要なしに、事前コンパイルされたデータセットからの学習ポリシーを約束する。
この設定は、試行錯誤に基づくオンラインデータ収集が高価で潜在的に安全であるような、連続制御ロボットアプリケーションに適している。
実際には、オフラインデータセットは、しばしば異種である。例えば、複数の人間のデモンストレータのデータや、異なる目的に作用するポリシーなど、さまざまなシナリオで収集される。
残念ながら、このようなデータセットは、データの基礎となる行動ポリシーと学習すべき最適なポリシーの間の分散シフトを悪化させ、パフォーマンスが低下する可能性がある。
この課題に対処するために,我々は,幅広い種類の政策分布を表現できる潜在変数ポリシーを活用し,潜在変数に対するポリシーによる報酬を最大化しつつ,トレーニングデータ分布への適合性を高めることを提案する。
シミュレーションされた移動、ナビゲーション、操作タスクについて実証的に示すように、当社の手法は、潜在変数利権重み付けポリシー最適化(LAPO)と呼ばれ、異種データセット上での次の最高のオフライン強化学習手法の平均性能を49%改善し、狭く偏りのあるデータセットでは8%向上させる。
関連論文リスト
- DiffPoGAN: Diffusion Policies with Generative Adversarial Networks for Offline Reinforcement Learning [22.323173093804897]
オフライン強化学習は、環境と対話することなく、事前にコンパイルされたオフラインデータセットから最適なポリシーを学ぶことができる。
最近の研究はGAN(Generative Adversarial Network)を用いてこの問題に対処している。
拡散にインスパイアされたDiffusion Policies with Generative Adversarial Networks (DiffPoGAN) という新しいオフラインRL手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T13:15:40Z) - Dataset Clustering for Improved Offline Policy Learning [7.873623003095065]
オフラインポリシー学習は、環境と追加のオンラインインタラクションなしで、事前に収集されたデータセットから意思決定ポリシーを見つけることを目的としている。
本稿では,マルチビヘイビア(multi-behavior)と呼ぶデータセットの特徴について検討し,異なる振る舞いを示す複数のポリシーを用いてデータセットが収集されることを示す。
マルチビヘイビアデータセットを複数のユニビヘイビアサブセットに分割する振舞い対応のディープクラスタリング手法を提案する。
論文 参考訳(メタデータ) (2024-02-14T20:01:41Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Offline Imitation Learning with Suboptimal Demonstrations via Relaxed
Distribution Matching [109.5084863685397]
オフライン模倣学習(IL)は、環境と相互作用することなく、事前にコンパイルされたデモからパフォーマンスポリシーを学習する機能を提供する。
非対称な f-分割を明示的なサポート正規化に用いたRelaxDICEを提案する。
提案手法は,6つの標準連続制御環境において,最上位のオフライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-03-05T03:35:11Z) - Model-based trajectory stitching for improved behavioural cloning and
its applications [7.462336024223669]
トラジェクティブ・スティッチング(TS)は、元のデータで切断された状態のペアを縫い合わせることで、新しいトラジェクトリを生成する。
古い軌道を新しい軌道に置き換える反復的プロセスが、基礎となる行動方針を漸進的に改善することを示した。
論文 参考訳(メタデータ) (2022-12-08T14:18:04Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Offline Reinforcement Learning with Adaptive Behavior Regularization [1.491109220586182]
オフライン強化学習(RL)は、静的で以前に収集されたデータセットからポリシーを学習する、サンプル効率のよい学習パラダイムを定義する。
適応行動正規化(Adaptive Behavior regularization, ABR)と呼ばれる新しい手法を提案する。
ABRは、データセットの生成に使用するポリシーのクローン化と改善の間に、ポリシーの最適化目標を適応的に調整することを可能にする。
論文 参考訳(メタデータ) (2022-11-15T15:59:11Z) - Regularizing a Model-based Policy Stationary Distribution to Stabilize
Offline Reinforcement Learning [62.19209005400561]
オフライン強化学習(RL)は、古典的なRLアルゴリズムのパラダイムを拡張して、静的データセットから純粋に学習する。
オフラインRLの鍵となる課題は、オフラインデータの分布と学習されたポリシーの定常状態分布とのミスマッチによって引き起こされるポリシートレーニングの不安定性である。
政策最適化プロセス中にオフラインデータに対する現在の方針の定常分布を正規化する。
論文 参考訳(メタデータ) (2022-06-14T20:56:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。