論文の概要: AdaptSim: Task-Driven Simulation Adaptation for Sim-to-Real Transfer
- arxiv url: http://arxiv.org/abs/2302.04903v2
- Date: Sun, 1 Oct 2023 03:41:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 20:29:31.329740
- Title: AdaptSim: Task-Driven Simulation Adaptation for Sim-to-Real Transfer
- Title(参考訳): adaptsim:sim-to-real転送のためのタスク駆動シミュレーション適応
- Authors: Allen Z. Ren, Hongkai Dai, Benjamin Burchfiel, Anirudha Majumdar
- Abstract要約: AdaptSimは、ターゲット(現実)環境でのタスクパフォーマンスの最適化を目的としている。
まず、強化学習を用いたシミュレーションにおける適応ポリシーをメタラーニングする。
次に、ポリシートレーニングのための新しいシミュレーションパラメータ分布を推定することにより、反復的実世界の適応を行う。
- 参考スコア(独自算出の注目度): 10.173835871228718
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Simulation parameter settings such as contact models and object geometry
approximations are critical to training robust robotic policies capable of
transferring from simulation to real-world deployment. Previous approaches
typically handcraft distributions over such parameters (domain randomization),
or identify parameters that best match the dynamics of the real environment
(system identification). However, there is often an irreducible gap between
simulation and reality: attempting to match the dynamics between simulation and
reality across all states and tasks may be infeasible and may not lead to
policies that perform well in reality for a specific task. Addressing this
issue, we propose AdaptSim, a new task-driven adaptation framework for
sim-to-real transfer that aims to optimize task performance in target (real)
environments -- instead of matching dynamics between simulation and reality.
First, we meta-learn an adaptation policy in simulation using reinforcement
learning for adjusting the simulation parameter distribution based on the
current policy's performance in a target environment. We then perform iterative
real-world adaptation by inferring new simulation parameter distributions for
policy training, using a small amount of real data. We perform experiments in
three robotic tasks: (1) swing-up of linearized double pendulum, (2) dynamic
table-top pushing of a bottle, and (3) dynamic scooping of food pieces with a
spatula. Our extensive simulation and hardware experiments demonstrate AdaptSim
achieving 1-3x asymptotic performance and $\sim$2x real data efficiency when
adapting to different environments, compared to methods based on Sys-ID and
directly training the task policy in target environments. Website:
https://irom-lab.github.io/AdaptSim/
- Abstract(参考訳): 接触モデルや物体形状近似などのシミュレーションパラメータ設定は、シミュレーションから実世界の展開へ移行できる堅牢なロボットポリシーの訓練に不可欠である。
従来のアプローチでは、そのようなパラメータ(ドメインのランダム化)上の手工芸分布や、実際の環境の力学(システム同定)に最もよく一致するパラメータを識別する。
しかしながら、シミュレーションと現実の間には不可解なギャップがしばしばあり、全ての状態とタスクのシミュレーションと現実のダイナミクスを一致させようとする試みは、実現不可能であり、特定のタスクに対してうまく機能するポリシーを導かない可能性がある。
本稿では,シミュレーションと現実のダイナミクスをマッチングするのではなく,対象(現実)環境でのタスクパフォーマンスを最適化することを目的とした,sim-to-real転送のためのタスク駆動適応フレームワークであるadaptsimを提案する。
まず,目標環境における現在のポリシーの性能に基づいてシミュレーションパラメータ分布を調整するための強化学習を用いたシミュレーションにおける適応ポリシーのメタ学習を行う。
そして, 少量の実データを用いて, 新たなシミュレーションパラメータ分布を推定し, 反復的な実世界適応を行う。
我々は,(1)線形化された二重振り子の跳ね上げ,(2)ボトルの動的テーブルトップ押し,(3)スペチュラを用いた食品の動的スクーピングという3つのロボット作業で実験を行った。
シミュレーションおよびハードウェア実験により,Sys-IDに基づく手法と目標環境におけるタスクポリシーを直接訓練した場合と比較して,AdaptSimが1~3倍の漸近性能と$\sim$2倍の実データ効率を達成することを示した。
ウェブサイト:https://irom-lab.github.io/AdaptSim/
関連論文リスト
- Marginalized Importance Sampling for Off-Environment Policy Evaluation [13.824507564510503]
強化学習法(Reinforcement Learning, RL)は、通常、サンプル非効率であり、実世界のロボットでRLポリティエの訓練と展開が困難である。
本稿では,エージェントポリシーを実環境にデプロイする前に,エージェントポリシーの現実的性能を評価するための新しいアプローチを提案する。
提案手法では,実世界のオフラインデータとともにシミュレータを組み込んで,任意のポリシーの性能評価を行う。
論文 参考訳(メタデータ) (2023-09-04T20:52:04Z) - Robust Visual Sim-to-Real Transfer for Robotic Manipulation [79.66851068682779]
シミュレーションにおけるビジュモータポリシーの学習は、現実世界よりも安全で安価である。
しかし、シミュレーションデータと実データとの相違により、シミュレータ訓練されたポリシーは実際のロボットに転送されると失敗することが多い。
視覚的なsim-to-real領域ギャップを埋める一般的なアプローチは、ドメインランダム化(DR)である。
論文 参考訳(メタデータ) (2023-07-28T05:47:24Z) - Zero-shot Sim2Real Adaptation Across Environments [45.44896435487879]
本稿では,実世界のシミュレートされたポリシーを模倣することを学ぶリバースアクショントランスフォーメーション(RAT)ポリシーを提案する。
RATは、新しい環境へのゼロショット適応を達成するために、Universal Policy Network上にデプロイできる。
論文 参考訳(メタデータ) (2023-02-08T11:59:07Z) - DeXtreme: Transfer of Agile In-hand Manipulation from Simulation to
Reality [64.51295032956118]
我々は人型ロボットの手で頑健な操作を行える政策を訓練する。
本研究は,各種ハードウェアおよびシミュレータのデクスタラス操作におけるsim-to-real転送の可能性を再確認する。
論文 参考訳(メタデータ) (2022-10-25T01:51:36Z) - BITS: Bi-level Imitation for Traffic Simulation [38.28736985320897]
データ駆動型アプローチを採用し,実世界の走行ログから交通挙動を学習する手法を提案する。
我々は,2つの大規模運転データセットのシナリオを用いて,BITS(Bi-level Imitation for Traffic Simulation)という手法を実証的に検証した。
コアコントリビューションの一環として、さまざまな駆動データセットにまたがるデータフォーマットを統合するソフトウェアツールを開発し、オープンソース化しています。
論文 参考訳(メタデータ) (2022-08-26T02:17:54Z) - Auto-Tuned Sim-to-Real Transfer [143.44593793640814]
シミュレーションで訓練されたポリシーは、しばしば現実世界に移されるときに失敗する。
ドメインのランダム化のようなこの問題に取り組む現在のアプローチには、事前の知識とエンジニアリングが必要である。
実世界に合わせてシミュレータシステムパラメータを自動的にチューニングする手法を提案する。
論文 参考訳(メタデータ) (2021-04-15T17:59:55Z) - TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。
特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。
TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文 参考訳(メタデータ) (2021-01-17T00:29:30Z) - Reactive Long Horizon Task Execution via Visual Skill and Precondition
Models [59.76233967614774]
シミュレーションで学習したモデルを用いて、単純なタスクプランナの構成要素をグラウンド化することで、見知らぬロボットタスクを達成できるシミュレート・トゥ・リアル・トレーニングのアプローチについて述べる。
シミュレーションでは91.6%から98%,実世界の成功率は10%から80%に増加した。
論文 参考訳(メタデータ) (2020-11-17T15:24:01Z) - Predicting Sim-to-Real Transfer with Probabilistic Dynamics Models [3.7692466417039814]
本稿では,RL ポリシーの sim-to-real 転送性能を予測する手法を提案する。
確率力学モデルはポリシーに沿って訓練され、実世界の軌道の固定セットで評価される。
論文 参考訳(メタデータ) (2020-09-27T15:06:54Z) - Point Cloud Based Reinforcement Learning for Sim-to-Real and Partial
Observability in Visual Navigation [62.22058066456076]
強化学習(Reinforcement Learning, RL)は、複雑なロボットタスクを解決する強力なツールである。
RL は sim-to-real transfer problem として知られる現実世界では直接作用しない。
本稿では,点雲と環境ランダム化によって構築された観測空間を学習する手法を提案する。
論文 参考訳(メタデータ) (2020-07-27T17:46:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。