論文の概要: Online vs. Offline Adaptive Domain Randomization Benchmark
- arxiv url: http://arxiv.org/abs/2206.14661v1
- Date: Wed, 29 Jun 2022 14:03:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-30 20:57:44.044611
- Title: Online vs. Offline Adaptive Domain Randomization Benchmark
- Title(参考訳): オンライン対オフライン適応ドメインランダム化ベンチマーク
- Authors: Gabriele Tiboni, Karol Arndt, Giuseppe Averta, Ville Kyrki, Tatiana
Tommasi
- Abstract要約: オフラインとオンラインの両方の手法(SimOpt、BayRn、DROID、DROPO)のオープンなベンチマークを行い、各設定やタスクに最も適しているものを列挙する。
オンライン手法は次のイテレーションで学習したポリシーの品質によって制限されているのに対し,オフライン手法はオープンループコマンドによるシミュレーションでトラジェクトリを再生する際に失敗することがあることがわかった。
- 参考スコア(独自算出の注目度): 20.69035879843824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Physics simulators have shown great promise for conveniently learning
reinforcement learning policies in safe, unconstrained environments. However,
transferring the acquired knowledge to the real world can be challenging due to
the reality gap. To this end, several methods have been recently proposed to
automatically tune simulator parameters with posterior distributions given real
data, for use with domain randomization at training time. These approaches have
been shown to work for various robotic tasks under different settings and
assumptions. Nevertheless, existing literature lacks a thorough comparison of
existing adaptive domain randomization methods with respect to transfer
performance and real-data efficiency. In this work, we present an open
benchmark for both offline and online methods (SimOpt, BayRn, DROID, DROPO), to
shed light on which are most suitable for each setting and task at hand. We
found that online methods are limited by the quality of the currently learned
policy for the next iteration, while offline methods may sometimes fail when
replaying trajectories in simulation with open-loop commands. The code used
will be released at https://github.com/gabrieletiboni/adr-benchmark.
- Abstract(参考訳): 物理シミュレーターは、安全で制約のない環境で強化学習ポリシーを便利に学習する大きな可能性を示してきた。
しかし、現実のギャップのため、取得した知識を現実の世界に移すことは困難である。
この目的のために、訓練時にドメインのランダム化を行うために、実データに対して後方分布を持つシミュレータパラメータを自動的にチューニングする手法が提案されている。
これらのアプローチは、異なる設定と仮定の下で様々なロボットタスクに有効であることが示されている。
それでも、既存の文献は、転送性能と実データ効率に関して、既存の適応的ドメインランダム化手法の徹底的な比較を欠いている。
本稿では,オフラインメソッドとオンラインメソッド(simopt, bayrn, droid, dropo)の両方に対して,それぞれの設定や作業に最も適した光を流すためのオープンベンチマークを提案する。
オンライン手法は次のイテレーションで学習したポリシーの品質によって制限されているのに対し,オフライン手法はオープンループコマンドによるシミュレーションでトラジェクトリを再生する際に失敗することがある。
使用されるコードはhttps://github.com/gabrieletiboni/adr-benchmarkでリリースされる。
関連論文リスト
- Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。
本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。
本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:41:36Z) - Understanding the performance gap between online and offline alignment algorithms [63.137832242488926]
オフラインのアルゴリズムは、ペアの分類が得意になるようにポリシーを訓練し、オンラインのアルゴリズムは世代ごとに良いことを示しています。
このことは、識別能力と生成能力の間のユニークな相互作用を示唆しており、これはサンプリングプロセスに大きく影響している。
我々の研究は、AIアライメントにおけるオンラインサンプリングの重要な役割に光を当て、オフラインアライメントアルゴリズムのある種の根本的な課題を示唆している。
論文 参考訳(メタデータ) (2024-05-14T09:12:30Z) - Improving Offline Reinforcement Learning with Inaccurate Simulators [34.54402525918925]
オフラインデータセットと不正確なシミュレーションデータをよりうまく組み合わせる新しい手法を提案する。
具体的には、オフラインデータセットの状態分布に合わせるために、GAN(Generative Adversarial Network)モデルを事前訓練する。
D4RLベンチマークと実世界の操作タスクによる実験結果から,提案手法は不正確なシミュレータと限定されたオフラインデータセットにより,最先端の手法よりも優れた性能を実現することができることを確認した。
論文 参考訳(メタデータ) (2024-05-07T13:29:41Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Robust Visual Sim-to-Real Transfer for Robotic Manipulation [79.66851068682779]
シミュレーションにおけるビジュモータポリシーの学習は、現実世界よりも安全で安価である。
しかし、シミュレーションデータと実データとの相違により、シミュレータ訓練されたポリシーは実際のロボットに転送されると失敗することが多い。
視覚的なsim-to-real領域ギャップを埋める一般的なアプローチは、ドメインランダム化(DR)である。
論文 参考訳(メタデータ) (2023-07-28T05:47:24Z) - Towards Data-Driven Offline Simulations for Online Reinforcement
Learning [30.654163861164864]
強化学習のためのオフライン学習者シミュレーション(OLS)を形式化する。
シミュレーションの忠実度と効率を両立させる新しい評価プロトコルを提案する。
論文 参考訳(メタデータ) (2022-11-14T18:36:13Z) - PLAS: Latent Action Space for Offline Reinforcement Learning [18.63424441772675]
オフライン強化学習の目標は、環境とのさらなる相互作用なしに、固定データセットからポリシーを学ぶことである。
既存のオフプライシアルゴリズムでは、アウト・オブ・ディストリビューションアクションによる外挿エラーによる静的データセットのパフォーマンスが制限されている。
提案手法は,各種の連続制御タスクと異なる種類のデータセットに対して,一貫して競合性能を提供することを示す。
論文 参考訳(メタデータ) (2020-11-14T03:38:38Z) - Do Offline Metrics Predict Online Performance in Recommender Systems? [79.48653445643865]
6つのシミュレーション環境におけるレコメンデータの評価により,オフラインメトリクスがオンラインのパフォーマンスを予測する程度について検討した。
オフラインメトリクスは、様々な環境におけるオンラインのパフォーマンスと相関している。
本研究は,探索戦略の追加による影響について検討し,その有効性はレコメンデーションアルゴリズムに大きく依存していることを示す。
論文 参考訳(メタデータ) (2020-11-07T01:41:13Z) - Tracking Performance of Online Stochastic Learners [57.14673504239551]
オンラインアルゴリズムは、大規模なバッチにデータを保存したり処理したりすることなく、リアルタイムで更新を計算できるため、大規模な学習環境で人気がある。
一定のステップサイズを使用すると、これらのアルゴリズムはデータやモデル特性などの問題パラメータのドリフトに適応し、適切な精度で最適解を追跡する能力を持つ。
定常仮定に基づく定常状態性能とランダムウォークモデルによるオンライン学習者の追跡性能の関連性を確立する。
論文 参考訳(メタデータ) (2020-04-04T14:16:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。