論文の概要: Improving Offline Reinforcement Learning with Inaccurate Simulators
- arxiv url: http://arxiv.org/abs/2405.04307v1
- Date: Tue, 7 May 2024 13:29:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 14:00:34.884146
- Title: Improving Offline Reinforcement Learning with Inaccurate Simulators
- Title(参考訳): 不正確なシミュレータによるオフライン強化学習の改善
- Authors: Yiwen Hou, Haoyuan Sun, Jinming Ma, Feng Wu,
- Abstract要約: オフラインデータセットと不正確なシミュレーションデータをよりうまく組み合わせる新しい手法を提案する。
具体的には、オフラインデータセットの状態分布に合わせるために、GAN(Generative Adversarial Network)モデルを事前訓練する。
D4RLベンチマークと実世界の操作タスクによる実験結果から,提案手法は不正確なシミュレータと限定されたオフラインデータセットにより,最先端の手法よりも優れた性能を実現することができることを確認した。
- 参考スコア(独自算出の注目度): 34.54402525918925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (RL) provides a promising approach to avoid costly online interaction with the real environment. However, the performance of offline RL highly depends on the quality of the datasets, which may cause extrapolation error in the learning process. In many robotic applications, an inaccurate simulator is often available. However, the data directly collected from the inaccurate simulator cannot be directly used in offline RL due to the well-known exploration-exploitation dilemma and the dynamic gap between inaccurate simulation and the real environment. To address these issues, we propose a novel approach to combine the offline dataset and the inaccurate simulation data in a better manner. Specifically, we pre-train a generative adversarial network (GAN) model to fit the state distribution of the offline dataset. Given this, we collect data from the inaccurate simulator starting from the distribution provided by the generator and reweight the simulated data using the discriminator. Our experimental results in the D4RL benchmark and a real-world manipulation task confirm that our method can benefit more from both inaccurate simulator and limited offline datasets to achieve better performance than the state-of-the-art methods.
- Abstract(参考訳): オフライン強化学習(RL)は、実際の環境とのコストの高いオンラインインタラクションを避けるための有望なアプローチを提供する。
しかし、オフラインRLの性能はデータセットの品質に大きく依存しており、学習プロセスにおける外挿誤差を引き起こす可能性がある。
多くのロボットアプリケーションでは、不正確なシミュレータがしばしば利用可能である。
しかし、よく知られた探索・探索ジレンマと、不正確なシミュレーションと実環境の間の動的ギャップのため、不正確なシミュレータから直接収集したデータはオフラインRLでは直接利用できない。
これらの問題に対処するために、オフラインデータセットと不正確なシミュレーションデータをよりうまく組み合わせる新しい手法を提案する。
具体的には、オフラインデータセットの状態分布に合わせるために、GAN(Generative Adversarial Network)モデルを事前訓練する。
この結果から,生成元が提供する分布から始まる不正確なシミュレータからデータを収集し,識別器を用いてシミュレーションデータを再重み付けする。
D4RLベンチマークと実世界の操作タスクによる実験結果から,提案手法は不正確なシミュレータと限定されたオフラインデータセットにより,最先端の手法よりも優れた性能を実現することができることを確認した。
関連論文リスト
- Robust Decision Transformer: Tackling Data Corruption in Offline RL via Sequence Modeling [34.547551367941246]
センサーや人間から収集された現実世界のデータには、しばしばノイズやエラーが含まれている。
時間差分学習に基づく従来のオフラインRL手法は、データ破損時に決定変換器(DT)を過小評価する傾向にある。
本稿では,ロバスト決定変換器 (RDT) を提案する。
論文 参考訳(メタデータ) (2024-07-05T06:34:32Z) - Benchmarks for Reinforcement Learning with Biased Offline Data and Imperfect Simulators [16.740841615738642]
強化学習におけるオフラインデータと不完全なシミュレータを結合する4つの主な課題を概説する。
これらの課題には、シミュレータモデリングエラー、部分的な可観測性、状態と動作の相違、隠れたコンファウンディングが含まれる。
この結果から,今後の研究におけるベンチマークの必要性が示唆された。
論文 参考訳(メタデータ) (2024-06-30T19:22:59Z) - Improved Long Short-Term Memory-based Wastewater Treatment Simulators for Deep Reinforcement Learning [0.0]
排水処理データのトレーニングモデルを改善するための2つの手法を実装した。
実験結果から, これらの手法を用いることで, シミュレーションの動作を1年を通して動的時間ワープで改善できることがわかった。
論文 参考訳(メタデータ) (2024-03-22T10:20:09Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced
Datasets [53.8218145723718]
オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集せずに意思決定ポリシーを学ぶことを目的としている。
我々は、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されないことを論じる。
本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-06T17:58:14Z) - Diffusion Dataset Generation: Towards Closing the Sim2Real Gap for
Pedestrian Detection [0.11470070927586014]
本稿では,歩行者検出作業において,シミュリアルなギャップを埋めるための新しい合成データ生成法を提案する。
提案手法は拡散型アーキテクチャを用いて実世界の分布を学習し,一度学習するとデータセットを生成する。
本研究では,実世界データにおける歩行者検出モデルにおいて,生成データとシミュレーションデータの組み合わせによるトレーニングにより,平均精度が27.3%向上することを示す。
論文 参考訳(メタデータ) (2023-05-16T12:33:51Z) - Continual learning autoencoder training for a particle-in-cell
simulation via streaming [52.77024349608834]
今後のエクサスケール時代は 次世代の物理シミュレーションを 高解像度で提供します
これらのシミュレーションは高解像度であり、ディスク上に大量のシミュレーションデータを格納することはほぼ不可能であるため、機械学習モデルのトレーニングに影響を与える。
この研究は、ディスク上のデータなしで、実行中のシミュレーションにニューラルネットワークを同時にトレーニングするアプローチを示す。
論文 参考訳(メタデータ) (2022-11-09T09:55:14Z) - Training robust anomaly detection using ML-Enhanced simulations [1.370633147306388]
シミュレーションは、実世界のデータではスパースまたは非存在の可能性のある異常検出のためのエッジ条件を提供することができる。
我々の手法は、実世界のデータに基づいてトレーニングされたニューラルネットワークを用いてシミュレーションを強化し、従来のシミュレーションよりもリアルで可変な出力を生成する。
論文 参考訳(メタデータ) (2020-08-27T12:28:07Z) - AutoSimulate: (Quickly) Learning Synthetic Data Generation [70.82315853981838]
目的の新たな微分可能近似に基づく最適な合成データ生成法を提案する。
提案手法は,学習データ生成の高速化(最大50Times$)と,実世界のテストデータセットの精度向上(+8.7%$)を実現している。
論文 参考訳(メタデータ) (2020-08-16T11:36:11Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。