論文の概要: Validate on Sim, Detect on Real -- Model Selection for Domain
Randomization
- arxiv url: http://arxiv.org/abs/2111.00765v1
- Date: Mon, 1 Nov 2021 08:34:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-02 14:27:43.719628
- Title: Validate on Sim, Detect on Real -- Model Selection for Domain
Randomization
- Title(参考訳): sim上で検証し、実数で検出する -- ドメインランダム化のためのモデル選択
- Authors: Gal Leibovich, Guy Jacob, Shadi Endrawis, Gal Novik, Aviv Tamar
- Abstract要約: ロボットのスキルを学ぶための実践的なアプローチは、しばしばsim2realと呼ばれ、シミュレーションの制御ポリシーを訓練し、それらを本物のロボットにデプロイする。
我々のスコア - VSDR - は、追加の現実世界データを必要とすることなく、ポリシーランキングの精度を大幅に向上させることができることを示す。
- 参考スコア(独自算出の注目度): 17.461103383630853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A practical approach to learning robot skills, often termed sim2real, is to
train control policies in simulation and then deploy them on a real robot.
Popular techniques to improve the sim2real transfer build on domain
randomization (DR): Training the policy on a diverse set of randomly generated
domains with the hope of better generalization to the real world. Due to the
large number of hyper-parameters in both the policy learning and DR algorithms,
one often ends up with a large number of trained models, where choosing the
best model among them demands costly evaluation on the real robot. In this work
we ask: Can we rank the policies without running them in the real world? Our
main idea is that a predefined set of real world data can be used to evaluate
all policies, using out-of-distribution detection (OOD) techniques. In a sense,
this approach can be seen as a "unit test" to evaluate policies before any real
world execution. However, we find that by itself, the OOD score can be
inaccurate and very sensitive to the particular OOD method. Our main
contribution is a simple-yet-effective policy score that combines OOD with an
evaluation in simulation. We show that our score - VSDR - can significantly
improve the accuracy of policy ranking without requiring additional real world
data. We evaluate the effectiveness of VSDR on sim2real transfer in a robotic
grasping task with image inputs. We extensively evaluate different DR
parameters and OOD methods, and show that VSDR improves policy selection across
the board. More importantly, our method achieves significantly better ranking,
and uses significantly less data compared to baselines.
- Abstract(参考訳): sim2realと呼ばれるロボットのスキルを学ぶ実践的なアプローチは、シミュレーションで制御ポリシーを訓練し、それを実際のロボットにデプロイする。
ドメインランダム化(dr: domain randomization)に基づくsim2実数転送の改善のための一般的なテクニック: 現実世界へのより良い一般化を期待して、ランダムに生成されたさまざまなドメインのポリシーをトレーニングする。
ポリシー学習とDRアルゴリズムの両方において、多くのハイパーパラメーターがあるため、多くの訓練されたモデルが出来上がり、その中で最良のモデルを選択するには、実際のロボットに対してコストがかかる。
この作業では、現実の世界でポリシーを実行することなく、ポリシーをランク付けできますか?
我々の主な考え方は、事前定義された現実世界データの集合が、オフ・オブ・ディストリビューション検出(OOD)技術を用いて、すべてのポリシーを評価することができるということである。
ある意味で、このアプローチは、現実世界の実行前にポリシーを評価するための"ユニットテスト"と見なすことができる。
しかし、OODスコア自体が不正確であり、特定のOODメソッドに非常に敏感であることがわかった。
本研究の主な貢献は,OODとシミュレーションにおける評価を組み合わせた,単純なyet効率の政策スコアである。
我々のスコア - VSDR - は、追加の現実世界データを必要とすることなく、ポリシーランキングの精度を大幅に向上させることができることを示す。
画像入力を伴うロボットグリップタスクにおいて,VSDRがsim2real転送に与える影響を評価する。
我々は、様々なDRパラメータとOOD手法を広範囲に評価し、VSDRがボード全体のポリシー選択を改善することを示す。
さらに重要なことは,本手法が格付けを著しく向上し,ベースラインに比べてデータ量が大幅に少ないことである。
関連論文リスト
- Steering Your Generalists: Improving Robotic Foundation Models via Value Guidance [66.51390591688802]
バリューガイド型ポリシーステアリング(V-GPS)は、ポリシーの重みを微調整したり、アクセスしたりすることなく、幅広い種類のジェネラリストポリシーと互換性がある。
同じ値関数は、異なるアーキテクチャで5つの最先端ポリシーの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-10-17T17:46:26Z) - Evaluating Real-World Robot Manipulation Policies in Simulation [91.55267186958892]
実環境と模擬環境の制御と視覚的格差は、信頼性のある模擬評価の鍵となる課題である。
実環境に完全忠実なデジタル双生児を作らなくても、これらのギャップを軽減できる手法を提案する。
シミュレーション環境の集合体であるSIMPLERを作成した。
論文 参考訳(メタデータ) (2024-05-09T17:30:16Z) - Robust Visual Sim-to-Real Transfer for Robotic Manipulation [79.66851068682779]
シミュレーションにおけるビジュモータポリシーの学習は、現実世界よりも安全で安価である。
しかし、シミュレーションデータと実データとの相違により、シミュレータ訓練されたポリシーは実際のロボットに転送されると失敗することが多い。
視覚的なsim-to-real領域ギャップを埋める一般的なアプローチは、ドメインランダム化(DR)である。
論文 参考訳(メタデータ) (2023-07-28T05:47:24Z) - Verifying Learning-Based Robotic Navigation Systems [61.01217374879221]
有効モデル選択に現代検証エンジンをどのように利用できるかを示す。
具体的には、検証を使用して、最適下行動を示す可能性のあるポリシーを検出し、除外する。
我々の研究は、現実世界のロボットにおける準最適DRLポリシーを認識するための検証バックエンドの使用を初めて実証したものである。
論文 参考訳(メタデータ) (2022-05-26T17:56:43Z) - Off Environment Evaluation Using Convex Risk Minimization [0.0]
本稿では,シミュレータと対象領域間のモデルミスマッチを推定する凸リスク最小化アルゴリズムを提案する。
対象領域におけるRLエージェントの性能を評価するために,シミュレータとともにこの推定器を使用できることを示す。
論文 参考訳(メタデータ) (2021-12-21T21:31:54Z) - Distilled Domain Randomization [23.178141671320436]
本稿では,無作為な物理シミュレーションからの強化学習と政策蒸留を組み合わせることを提案する。
我々のアルゴリズムはDistilled Domain Randomization (DiDoR)と呼ばれ、ドメインの専門家であるいわゆる教師ポリシーを蒸留する。
このようにして、DiDoRは、ターゲットドメインからのデータを必要とせずに、シミュレーションから現実へ直接移行するコントローラを学習する。
論文 参考訳(メタデータ) (2021-12-06T16:35:08Z) - Supervised Off-Policy Ranking [145.3039527243585]
オフポリシー評価(OPE)は、他のポリシーによって生成されたデータを活用して、ターゲットポリシーを評価する。
本稿では,訓練方針と既知の実績を正しくランク付けすることで,政策スコアリングモデルを学習する教師付き非政治ランキングを提案する。
本手法は,上位3つのポリシーのうち,最良と最良の双方のランク相関と性能差の両面から,強力なベースラインOPE法より優れる。
論文 参考訳(メタデータ) (2021-07-03T07:01:23Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z) - Robotic Arm Control and Task Training through Deep Reinforcement
Learning [6.249276977046449]
我々は,信頼地域政策最適化と正規化アドバンテージ関数を用いたディープQ-ネットワークが,Deep Deterministic Policy GradientやVanilla Policy Gradientよりも優れていることを示す。
実際の実験では、我々の警察がシミュレーションで正しく訓練されたとしても、ほとんど変化なしに実際の環境に移動して実行できることが示されます。
論文 参考訳(メタデータ) (2020-05-06T07:34:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。