論文の概要: HIPODE: Enhancing Offline Reinforcement Learning with High-Quality
Synthetic Data from a Policy-Decoupled Approach
- arxiv url: http://arxiv.org/abs/2306.06329v1
- Date: Sat, 10 Jun 2023 01:49:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 19:44:39.439475
- Title: HIPODE: Enhancing Offline Reinforcement Learning with High-Quality
Synthetic Data from a Policy-Decoupled Approach
- Title(参考訳): HIPODE:政策分離アプローチによる高品質合成データによるオフライン強化学習の促進
- Authors: Shixi Lian, Yi Ma, Jinyi Liu, Yan Zheng, Zhaopeng Meng
- Abstract要約: オフライン強化学習(ORL)は,事前収集した静的データを用いて強化学習モデルを訓練する手段として注目されている。
ORLの新しいデータ拡張手法であるtextbfHIgh-quality textbfPOlicy-textbfDEcoupled(HIPODE)を提案する。
一方、HIPODEは、潜在的に高い値のデータセット分布近傍の状態を選択することによって、高品質な合成データを生成する。
一方、HIPODEはポリシ分離されているため、ダウンストリームの共通プラグインメソッドとして使用できる。
- 参考スコア(独自算出の注目度): 20.700772554212094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (ORL) has gained attention as a means of
training reinforcement learning models using pre-collected static data. To
address the issue of limited data and improve downstream ORL performance,
recent work has attempted to expand the dataset's coverage through data
augmentation. However, most of these methods are tied to a specific policy
(policy-dependent), where the generated data can only guarantee to support the
current downstream ORL policy, limiting its usage scope on other downstream
policies. Moreover, the quality of synthetic data is often not well-controlled,
which limits the potential for further improving the downstream policy. To
tackle these issues, we propose \textbf{HI}gh-quality
\textbf{PO}licy-\textbf{DE}coupled~(HIPODE), a novel data augmentation method
for ORL. On the one hand, HIPODE generates high-quality synthetic data by
selecting states near the dataset distribution with potentially high value
among candidate states using the negative sampling technique. On the other
hand, HIPODE is policy-decoupled, thus can be used as a common plug-in method
for any downstream ORL process. We conduct experiments on the widely studied
TD3BC and CQL algorithms, and the results show that HIPODE outperforms the
state-of-the-art policy-decoupled data augmentation method and most prevalent
model-based ORL methods on D4RL benchmarks.
- Abstract(参考訳): オフライン強化学習(ORL)は,事前収集した静的データを用いた強化学習モデルの訓練手段として注目されている。
限られたデータの問題に対処し、下流ORLのパフォーマンスを改善するため、最近の研究はデータ拡張を通じてデータセットのカバレッジを拡大しようと試みている。
しかし、これらの手法のほとんどは特定のポリシー(政治に依存している)に結びついており、生成されたデータは現在の下流ORLポリシーをサポートすることのみを保証し、他の下流ポリシーの使用範囲を制限する。
さらに、合成データの質はよくよく制御されておらず、下流のポリシーをさらに改善する可能性を制限する。
これらの問題に対処するため,ORL の新たなデータ拡張手法である \textbf{HI}gh-quality \textbf{PO}licy-\textbf{DE} Coupled~(HIPODE)を提案する。
一方、HIPODEは、負のサンプリング手法を用いて、候補状態間で潜在的に高い値のデータセット分布近傍の状態を選択することによって、高品質な合成データを生成する。
一方、HIPODEはポリシ分離されているため、ダウンストリームORLプロセスの共通プラグインメソッドとして使用できる。
我々は、広く研究されているTD3BCおよびCQLアルゴリズムの実験を行い、その結果、HIPODEは、D4RLベンチマーク上で、最先端のポリシー分離データ拡張法および最も一般的なモデルベースORL法よりも優れていることを示した。
関連論文リスト
- DiffPoGAN: Diffusion Policies with Generative Adversarial Networks for Offline Reinforcement Learning [22.323173093804897]
オフライン強化学習は、環境と対話することなく、事前にコンパイルされたオフラインデータセットから最適なポリシーを学ぶことができる。
最近の研究はGAN(Generative Adversarial Network)を用いてこの問題に対処している。
拡散にインスパイアされたDiffusion Policies with Generative Adversarial Networks (DiffPoGAN) という新しいオフラインRL手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T13:15:40Z) - Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced
Datasets [53.8218145723718]
オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集せずに意思決定ポリシーを学ぶことを目的としている。
我々は、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されないことを論じる。
本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-06T17:58:14Z) - Model-based trajectory stitching for improved behavioural cloning and
its applications [7.462336024223669]
トラジェクティブ・スティッチング(TS)は、元のデータで切断された状態のペアを縫い合わせることで、新しいトラジェクトリを生成する。
古い軌道を新しい軌道に置き換える反復的プロセスが、基礎となる行動方針を漸進的に改善することを示した。
論文 参考訳(メタデータ) (2022-12-08T14:18:04Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - Reinforcement Learning with Heterogeneous Data: Estimation and Inference [84.72174994749305]
人口の不均一性に関する逐次的決定問題に対処するために,K-ヘテロ・マルコフ決定過程(K-ヘテロ・MDP)を導入する。
本稿では、ある政策の価値を推定するための自己クラスタ化政策評価(ACPE)と、ある政策クラスにおける最適な政策を推定するための自己クラスタ化政策イテレーション(ACPI)を提案する。
理論的な知見を裏付けるシミュレーションを行い,MIMIC-III標準データセットの実証的研究を行った。
論文 参考訳(メタデータ) (2022-01-31T20:58:47Z) - Deceive D: Adaptive Pseudo Augmentation for GAN Training with Limited
Data [125.7135706352493]
GAN(Generative Adversarial Network)は、高忠実度画像を合成するために、訓練に十分なデータを必要とする。
近年の研究では、差別者の過度な適合により、限られたデータでGANを訓練することは困難であることが示されている。
本稿では,APA (Adaptive Pseudo Augmentation) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-11-12T18:13:45Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - Distributional Offline Continuous-Time Reinforcement Learning with
Neural Physics-Informed PDEs (SciPhy RL for DOCTR-L) [0.0]
本稿では,分散オフライン連続時間強化学習(DOCTR-L)を高次元最適制御のためのポリシーで扱う。
ソフトHJB方程式のデータ駆動解は、SciML(Scientific Machine Learning)の分野で開発されたニューラルPDEと物理情報ニューラルネットワークの手法を用いている
Deep DOCTR-Lと呼ばれるアルゴリズムは、オフラインの高次元データを教師あり学習に還元することで、一つのステップで最適なポリシーに変換する。
論文 参考訳(メタデータ) (2021-04-02T13:22:14Z) - Generalization in Reinforcement Learning by Soft Data Augmentation [11.752595047069505]
SODA(Soft Data Augmentation)は、政策学習からAugmentationを分離する手法である。
我々は、最先端のビジョンベースRL法によるトレーニングにおいて、サンプル効率、一般化、安定性を著しく向上するSODAを見出した。
論文 参考訳(メタデータ) (2020-11-26T17:00:34Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。