論文の概要: Off Environment Evaluation Using Convex Risk Minimization
- arxiv url: http://arxiv.org/abs/2112.11532v1
- Date: Tue, 21 Dec 2021 21:31:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-24 01:32:00.093716
- Title: Off Environment Evaluation Using Convex Risk Minimization
- Title(参考訳): 凸リスク最小化によるオフ環境評価
- Authors: Pulkit Katdare, Shuijing Liu and Katherine Driggs-Campbell
- Abstract要約: 本稿では,シミュレータと対象領域間のモデルミスマッチを推定する凸リスク最小化アルゴリズムを提案する。
対象領域におけるRLエージェントの性能を評価するために,シミュレータとともにこの推定器を使用できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Applying reinforcement learning (RL) methods on robots typically involves
training a policy in simulation and deploying it on a robot in the real world.
Because of the model mismatch between the real world and the simulator, RL
agents deployed in this manner tend to perform suboptimally. To tackle this
problem, researchers have developed robust policy learning algorithms that rely
on synthetic noise disturbances. However, such methods do not guarantee
performance in the target environment. We propose a convex risk minimization
algorithm to estimate the model mismatch between the simulator and the target
domain using trajectory data from both environments. We show that this
estimator can be used along with the simulator to evaluate performance of an RL
agents in the target domain, effectively bridging the gap between these two
environments. We also show that the convergence rate of our estimator to be of
the order of ${n^{-1/4}}$, where $n$ is the number of training samples. In
simulation, we demonstrate how our method effectively approximates and
evaluates performance on Gridworld, Cartpole, and Reacher environments on a
range of policies. We also show that the our method is able to estimate
performance of a 7 DOF robotic arm using the simulator and remotely collected
data from the robot in the real world.
- Abstract(参考訳): ロボットに強化学習(rl)手法を適用すると、通常、シミュレーションのポリシーを訓練し、現実世界のロボットにデプロイする。
実世界とシミュレータのモデルミスマッチのため、この方法でデプロイされたrlエージェントは、サブオプティマイズで実行する傾向がある。
この問題に対処するために、研究者は合成ノイズの乱れに依存する堅牢なポリシー学習アルゴリズムを開発した。
しかし、そのような手法は対象環境における性能を保証しない。
両環境の軌跡データを用いて,シミュレータと対象領域間のモデルミスマッチを推定する凸リスク最小化アルゴリズムを提案する。
この推定器とシミュレータを用いて,対象領域におけるrlエージェントの性能評価を行い,この2つの環境間のギャップを効果的に橋渡しできることを示す。
また、推定器の収束率は${n^{-1/4}}$の順であり、ここでは$n$はトレーニングサンプルの数である。
シミュレーションでは,gridworld,cartpole,および reacher 環境の性能を,様々なポリシーで効果的に近似し,評価する方法を示す。
また,本手法はシミュレータを用いて7自由度ロボットアームの性能を推定し,実世界のロボットからリモートでデータを収集できることを示す。
関連論文リスト
- Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Evaluating Real-World Robot Manipulation Policies in Simulation [91.55267186958892]
実環境と模擬環境の制御と視覚的格差は、信頼性のある模擬評価の鍵となる課題である。
実環境に完全忠実なデジタル双生児を作らなくても、これらのギャップを軽減できる手法を提案する。
シミュレーション環境の集合体であるSIMPLERを作成した。
論文 参考訳(メタデータ) (2024-05-09T17:30:16Z) - Marginalized Importance Sampling for Off-Environment Policy Evaluation [13.824507564510503]
強化学習法(Reinforcement Learning, RL)は、通常、サンプル非効率であり、実世界のロボットでRLポリティエの訓練と展開が困難である。
本稿では,エージェントポリシーを実環境にデプロイする前に,エージェントポリシーの現実的性能を評価するための新しいアプローチを提案する。
提案手法では,実世界のオフラインデータとともにシミュレータを組み込んで,任意のポリシーの性能評価を行う。
論文 参考訳(メタデータ) (2023-09-04T20:52:04Z) - Robust Visual Sim-to-Real Transfer for Robotic Manipulation [79.66851068682779]
シミュレーションにおけるビジュモータポリシーの学習は、現実世界よりも安全で安価である。
しかし、シミュレーションデータと実データとの相違により、シミュレータ訓練されたポリシーは実際のロボットに転送されると失敗することが多い。
視覚的なsim-to-real領域ギャップを埋める一般的なアプローチは、ドメインランダム化(DR)である。
論文 参考訳(メタデータ) (2023-07-28T05:47:24Z) - Obstacle Avoidance for Robotic Manipulator in Joint Space via Improved
Proximal Policy Optimization [6.067589886362815]
本稿では,6-DoFマニピュレータのタスク空間から関節空間にマップするために,改良されたPPOアルゴリズムを用いて深層ニューラルネットワークを訓練する。
実ロボットでそのようなタスクを訓練するのは時間を要するので、モデルを訓練するためのシミュレーション環境を開発する。
実験結果から,ロボットは非構造環境下で1つの目標をトラッキングしたり,複数の目標に到達することができた。
論文 参考訳(メタデータ) (2022-10-03T10:21:57Z) - Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。
連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。
我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-15T18:50:04Z) - Accelerated Sim-to-Real Deep Reinforcement Learning: Learning Collision
Avoidance from Human Player [5.960346570280513]
本稿では,移動ロボットに使用するセンサレベルマップレス衝突回避アルゴリズムを提案する。
ロボットが人間体験データと自己探索データの両方から学習できるように,効率的な学習戦略を提案する。
ゲームフォーマットシミュレーションフレームワークは、人間のプレイヤーがモバイルロボットを目標まで遠隔操作できるように設計されている。
論文 参考訳(メタデータ) (2021-02-21T23:27:34Z) - A User's Guide to Calibrating Robotics Simulators [54.85241102329546]
本稿では,シミュレーションで学習したモデルやポリシーを現実世界に伝達することを目的とした,様々なアルゴリズムの研究のためのベンチマークとフレームワークを提案する。
我々は、様々なアルゴリズムの性能に関する洞察を特徴付け、提供するために、広く知られたシミュレーション環境の実験を行う。
我々の分析は、この分野の実践者にとって有用であり、sim-to-realアルゴリズムの動作と主特性について、より深い選択をすることができる。
論文 参考訳(メタデータ) (2020-11-17T22:24:26Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z) - Sim-to-Real Transfer with Incremental Environment Complexity for
Reinforcement Learning of Depth-Based Robot Navigation [1.290382979353427]
段階的環境複雑性を用いたソフト・アクター・クリティカル(SAC)トレーニング戦略を提案し,実世界における追加トレーニングの必要性を大幅に低減した。
アプリケーションは深度に基づくマップレスナビゲーションで、移動ロボットは、事前のマッピング情報なしで、散らかった環境で所定の経路点に到達すべきである。
論文 参考訳(メタデータ) (2020-04-30T10:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。