論文の概要: Learning from Sparse Offline Datasets via Conservative Density
Estimation
- arxiv url: http://arxiv.org/abs/2401.08819v1
- Date: Tue, 16 Jan 2024 20:42:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 17:47:39.585010
- Title: Learning from Sparse Offline Datasets via Conservative Density
Estimation
- Title(参考訳): 保守密度推定による疎オフラインデータセットからの学習
- Authors: Zhepeng Cen, Zuxin Liu, Zitong Wang, Yihang Yao, Henry Lam, Ding Zhao
- Abstract要約: 保守密度推定(CDE)と呼ばれる新しいトレーニングアルゴリズムを提案する。
CDEはこの課題に対処し、州が占有する定常分布に明示的に制約を課す。
本手法はD4RLベンチマークにおける最先端性能を実現する。
- 参考スコア(独自算出の注目度): 27.93418377019955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (RL) offers a promising direction for learning
policies from pre-collected datasets without requiring further interactions
with the environment. However, existing methods struggle to handle
out-of-distribution (OOD) extrapolation errors, especially in sparse reward or
scarce data settings. In this paper, we propose a novel training algorithm
called Conservative Density Estimation (CDE), which addresses this challenge by
explicitly imposing constraints on the state-action occupancy stationary
distribution. CDE overcomes the limitations of existing approaches, such as the
stationary distribution correction method, by addressing the support mismatch
issue in marginal importance sampling. Our method achieves state-of-the-art
performance on the D4RL benchmark. Notably, CDE consistently outperforms
baselines in challenging tasks with sparse rewards or insufficient data,
demonstrating the advantages of our approach in addressing the extrapolation
error problem in offline RL.
- Abstract(参考訳): オフライン強化学習(RL)は、環境とのさらなるインタラクションを必要とせずに、事前にコンパイルされたデータセットからポリシーを学ぶための有望な方向を提供する。
しかし、既存のメソッドは、特にスパース報酬やデータ設定の不足など、外挿エラー(OOD)を扱うのに苦労している。
本稿では,この課題に対処するために,状態-動作の定常分布に制約を明示的に課すことにより,保守的密度推定(CDE)と呼ばれる新しいトレーニングアルゴリズムを提案する。
CDEは, 限界値サンプリングにおけるサポートミスマッチ問題に対処することで, 定常分布補正法などの既存手法の限界を克服する。
本手法はD4RLベンチマークにおける最先端性能を実現する。
特に、CDEは、低い報酬や不十分なデータを伴う課題タスクにおいて、ベースラインを一貫して上回り、オフラインRLにおける外挿エラー問題に対処する上で、我々のアプローチの利点を示す。
関連論文リスト
- Entropy-regularized Diffusion Policy with Q-Ensembles for Offline Reinforcement Learning [11.0460569590737]
本稿では,オフライン強化学習(RL)のための訓練拡散政策の高度技術について述べる。
我々は、SDEが、オフラインデータセットの探索を改善するエントロピー正則化器(Entropy regularizer)を生成することで、ポリシーのログ確率を計算するのに使用できるソリューションを持っていることを示す。
オフラインRLにおけるエントロピー正規化拡散ポリシーとQアンサンブルを組み合わせることで,D4RLベンチマークのほとんどのタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-06T15:34:30Z) - Reasoning with Latent Diffusion in Offline Reinforcement Learning [11.349356866928547]
オフラインの強化学習は、静的データセットからハイリワードポリシーを学ぶ手段として、約束を守る。
オフラインRLの主な課題は、静的データセットから最適な軌道の部分を効果的に縫合することにある。
本稿では,潜在拡散の表現性を利用して,非支持軌道列を圧縮された潜在スキルとしてモデル化する手法を提案する。
論文 参考訳(メタデータ) (2023-09-12T20:58:21Z) - Offline Reinforcement Learning with Imbalanced Datasets [23.454333727200623]
実世界のオフライン強化学習(RL)データセットは、探索や安全性の考慮が難しいため、状態空間上で不均衡になることが多い。
保守的なQ-ラーニング(CQL)のような分散制約に基づくオフラインのRL手法は、不均衡なデータセットの下でポリシーを抽出するのに効果がないことを示す。
自然知性に触発されて、CQLの強化と検索プロセスを利用して、過去の経験を思い出す新しいオフラインRL法を提案する。
論文 参考訳(メタデータ) (2023-07-06T03:22:19Z) - Offline Imitation Learning with Suboptimal Demonstrations via Relaxed
Distribution Matching [109.5084863685397]
オフライン模倣学習(IL)は、環境と相互作用することなく、事前にコンパイルされたデモからパフォーマンスポリシーを学習する機能を提供する。
非対称な f-分割を明示的なサポート正規化に用いたRelaxDICEを提案する。
提案手法は,6つの標準連続制御環境において,最上位のオフライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-03-05T03:35:11Z) - Offline Reinforcement Learning with Adaptive Behavior Regularization [1.491109220586182]
オフライン強化学習(RL)は、静的で以前に収集されたデータセットからポリシーを学習する、サンプル効率のよい学習パラダイムを定義する。
適応行動正規化(Adaptive Behavior regularization, ABR)と呼ばれる新しい手法を提案する。
ABRは、データセットの生成に使用するポリシーのクローン化と改善の間に、ポリシーの最適化目標を適応的に調整することを可能にする。
論文 参考訳(メタデータ) (2022-11-15T15:59:11Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Regularizing a Model-based Policy Stationary Distribution to Stabilize
Offline Reinforcement Learning [62.19209005400561]
オフライン強化学習(RL)は、古典的なRLアルゴリズムのパラダイムを拡張して、静的データセットから純粋に学習する。
オフラインRLの鍵となる課題は、オフラインデータの分布と学習されたポリシーの定常状態分布とのミスマッチによって引き起こされるポリシートレーニングの不安定性である。
政策最適化プロセス中にオフラインデータに対する現在の方針の定常分布を正規化する。
論文 参考訳(メタデータ) (2022-06-14T20:56:16Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - Pessimistic Bootstrapping for Uncertainty-Driven Offline Reinforcement
Learning [125.8224674893018]
オフライン強化学習(RL)は、環境を探索することなく、以前に収集したデータセットからポリシーを学ぶことを目的としている。
オフポリシーアルゴリズムをオフラインRLに適用することは、通常、オフ・オブ・ディストリビューション(OOD)アクションによって引き起こされる外挿エラーによって失敗する。
本稿では,PBRL(Pepsimistic Bootstrapping for offline RL)を提案する。
論文 参考訳(メタデータ) (2022-02-23T15:27:16Z) - Uncertainty-Based Offline Reinforcement Learning with Diversified
Q-Ensemble [16.92791301062903]
本稿では,Q値予測の信頼性を考慮した不確実性に基づくオフラインRL手法を提案する。
意外なことに、カットされたQ-ラーニングとともにQ-networksの数を単純に増やすことで、既存のオフラインRLメソッドを様々なタスクで大幅に上回ります。
論文 参考訳(メタデータ) (2021-10-04T16:40:13Z) - Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。
バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。
この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2021-02-18T08:54:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。