論文の概要: Offline Reinforcement Learning with Imbalanced Datasets
- arxiv url: http://arxiv.org/abs/2307.02752v1
- Date: Thu, 6 Jul 2023 03:22:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 15:11:48.231201
- Title: Offline Reinforcement Learning with Imbalanced Datasets
- Title(参考訳): 不均衡データセットを用いたオフライン強化学習
- Authors: Li Jiang, Sijie Chen, Jielin Qiu, Haoran Xu, Wai Kin Chan, Zhao Ding
- Abstract要約: 実世界のオフライン強化学習(RL)データセットは、探索や安全性の考慮が難しいため、状態空間上で不均衡になることが多い。
保守的なQ-ラーニング(CQL)のような分散制約に基づくオフラインのRL手法は、不均衡なデータセットの下でポリシーを抽出するのに効果がないことを示す。
自然知性に触発されて、CQLの強化と検索プロセスを利用して、過去の経験を思い出す新しいオフラインRL法を提案する。
- 参考スコア(独自算出の注目度): 6.133506470411839
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The prevalent use of benchmarks in current offline reinforcement learning
(RL) research has led to a neglect of the imbalance of real-world dataset
distributions in the development of models. The real-world offline RL dataset
is often imbalanced over the state space due to the challenge of exploration or
safety considerations. In this paper, we specify properties of imbalanced
datasets in offline RL, where the state coverage follows a power law
distribution characterized by skewed policies. Theoretically and empirically,
we show that typically offline RL methods based on distributional constraints,
such as conservative Q-learning (CQL), are ineffective in extracting policies
under the imbalanced dataset. Inspired by natural intelligence, we propose a
novel offline RL method that utilizes the augmentation of CQL with a retrieval
process to recall past related experiences, effectively alleviating the
challenges posed by imbalanced datasets. We evaluate our method on several
tasks in the context of imbalanced datasets with varying levels of imbalance,
utilizing the variant of D4RL. Empirical results demonstrate the superiority of
our method over other baselines.
- Abstract(参考訳): 現在のオフライン強化学習(RL)研究におけるベンチマークの利用は、モデル開発における実際のデータセット分布の不均衡を無視している。
現実世界のオフラインRLデータセットは、探索や安全性の考慮が難しいため、状態空間上で不均衡になることが多い。
本稿では、オフラインRLにおける不均衡データセットの特性を規定する。そこでは、状態カバレッジは、歪んだポリシーを特徴とする電力法分布に従う。
理論的および実証的に、保守的q-learning(cql)のような分布的制約に基づくオフラインrlメソッドは、不均衡データセットの下でポリシーを抽出するのに効果がないことを示した。
自然知性に触発されて,cqlを検索プロセスで拡張し,過去の関連する経験を思い出し,不均衡データセットによって生じる課題を効果的に軽減する,オフラインrl手法を提案する。
我々は,D4RLの変種を利用して,不均衡なデータセットの文脈における複数のタスクに対する手法の評価を行った。
実験により,本手法が他のベースラインよりも優れていることを示す。
関連論文リスト
- Out-of-Distribution Adaptation in Offline RL: Counterfactual Reasoning via Causal Normalizing Flows [30.926243761581624]
CNF(Causal Normalizing Flow)は、オフラインポリシー評価とトレーニングにおいて、データ生成と拡張のための遷移関数と報酬関数を学習するために開発された。
CNFは、シーケンシャルな意思決定タスクに対する予測的および反ファクト的推論能力を獲得し、OOD適応の可能性を明らかにしている。
我々のCNFベースのオフラインRLアプローチは経験的評価によって検証され、モデルフリーおよびモデルベース手法よりもかなりのマージンで性能が向上する。
論文 参考訳(メタデータ) (2024-05-06T22:44:32Z) - Learning from Sparse Offline Datasets via Conservative Density
Estimation [27.93418377019955]
保守密度推定(CDE)と呼ばれる新しいトレーニングアルゴリズムを提案する。
CDEはこの課題に対処し、州が占有する定常分布に明示的に制約を課す。
本手法はD4RLベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-01-16T20:42:15Z) - Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced
Datasets [53.8218145723718]
オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集せずに意思決定ポリシーを学ぶことを目的としている。
我々は、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されないことを論じる。
本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-06T17:58:14Z) - Offline RL With Realistic Datasets: Heteroskedasticity and Support
Constraints [82.43359506154117]
非均一な変数を持つデータから、典型的なオフライン強化学習手法が学習できないことを示す。
提案手法は,Atariゲーム,ナビゲーション,ピクセルベースの操作において,多種多様なオフラインRL問題にまたがる性能向上を図っている。
論文 参考訳(メタデータ) (2022-11-02T11:36:06Z) - Regularizing a Model-based Policy Stationary Distribution to Stabilize
Offline Reinforcement Learning [62.19209005400561]
オフライン強化学習(RL)は、古典的なRLアルゴリズムのパラダイムを拡張して、静的データセットから純粋に学習する。
オフラインRLの鍵となる課題は、オフラインデータの分布と学習されたポリシーの定常状態分布とのミスマッチによって引き起こされるポリシートレーニングの不安定性である。
政策最適化プロセス中にオフラインデータに対する現在の方針の定常分布を正規化する。
論文 参考訳(メタデータ) (2022-06-14T20:56:16Z) - Pessimistic Bootstrapping for Uncertainty-Driven Offline Reinforcement
Learning [125.8224674893018]
オフライン強化学習(RL)は、環境を探索することなく、以前に収集したデータセットからポリシーを学ぶことを目的としている。
オフポリシーアルゴリズムをオフラインRLに適用することは、通常、オフ・オブ・ディストリビューション(OOD)アクションによって引き起こされる外挿エラーによって失敗する。
本稿では,PBRL(Pepsimistic Bootstrapping for offline RL)を提案する。
論文 参考訳(メタデータ) (2022-02-23T15:27:16Z) - Uncertainty-Based Offline Reinforcement Learning with Diversified
Q-Ensemble [16.92791301062903]
本稿では,Q値予測の信頼性を考慮した不確実性に基づくオフラインRL手法を提案する。
意外なことに、カットされたQ-ラーニングとともにQ-networksの数を単純に増やすことで、既存のオフラインRLメソッドを様々なタスクで大幅に上回ります。
論文 参考訳(メタデータ) (2021-10-04T16:40:13Z) - Instabilities of Offline RL with Pre-Trained Neural Representation [127.89397629569808]
オフライン強化学習(RL)では、オフラインデータを利用して、評価対象のポリシーのそれとは大きく異なる分布からデータが収集されるシナリオでポリシーを評価する(または学習する)ことを目指しています。
最近の理論的進歩は、そのようなサンプル効率の良いオフラインRLが確かにある強い表現条件が保持されることを示した。
本研究は,オフラインrlメソッドの安定性を評価するために,経験的視点からこれらの問題を考察する。
論文 参考訳(メタデータ) (2021-03-08T18:06:44Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。