論文の概要: AdaptSim: Task-Driven Simulation Adaptation for Sim-to-Real Transfer
- arxiv url: http://arxiv.org/abs/2302.04903v1
- Date: Thu, 9 Feb 2023 19:10:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-13 17:25:28.943354
- Title: AdaptSim: Task-Driven Simulation Adaptation for Sim-to-Real Transfer
- Title(参考訳): adaptsim:sim-to-real転送のためのタスク駆動シミュレーション適応
- Authors: Allen Z. Ren, Hongkai Dai, Benjamin Burchfiel, Anirudha Majumdar
- Abstract要約: AdaptSimはsim-to-real転送のための新しいタスク駆動適応フレームワークである。
ターゲット(現実)環境でのタスクパフォーマンスの最適化を目的としている。
- 参考スコア(独自算出の注目度): 3.240295037043049
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Simulation parameter settings such as contact models and object geometry
approximations are critical to training robust robotic policies capable of
transferring from simulation to real-world deployment. Previous approaches
typically handcraft distributions over such parameters (domain randomization),
or identify parameters that best match the dynamics of the real environment
(system identification). However, there is often an irreducible gap between
simulation and reality: attempting to match the dynamics between simulation and
reality across all states and tasks may be infeasible and may not lead to
policies that perform well in reality for a specific task. Addressing this
issue, we propose AdaptSim, a new task-driven adaptation framework for
sim-to-real transfer that aims to optimize task performance in target (real)
environments -- instead of matching dynamics between simulation and reality.
First, we meta-learn an adaptation policy in simulation using reinforcement
learning for adjusting the simulation parameter distribution based on the
current policy's performance in a target environment. We then perform iterative
real-world adaptation by inferring new simulation parameter distributions for
policy training, using a small amount of real data. We perform experiments in
three robotic tasks: (1) swing-up of linearized double pendulum, (2) dynamic
table-top pushing of a bottle, and (3) dynamic scooping of food pieces with a
spatula. Our extensive simulation and hardware experiments demonstrate AdaptSim
achieving 1-3x asymptotic performance and $\sim$2x real data efficiency when
adapting to different environments, compared to methods based on Sys-ID and
directly training the task policy in target environments.
- Abstract(参考訳): 接触モデルや物体形状近似などのシミュレーションパラメータ設定は、シミュレーションから実世界の展開へ移行できる堅牢なロボットポリシーの訓練に不可欠である。
従来のアプローチでは、そのようなパラメータ(ドメインのランダム化)上の手工芸分布や、実際の環境の力学(システム同定)に最もよく一致するパラメータを識別する。
しかしながら、シミュレーションと現実の間には不可解なギャップがしばしばあり、全ての状態とタスクのシミュレーションと現実のダイナミクスを一致させようとする試みは、実現不可能であり、特定のタスクに対してうまく機能するポリシーを導かない可能性がある。
本稿では,シミュレーションと現実のダイナミクスをマッチングするのではなく,対象(現実)環境でのタスクパフォーマンスを最適化することを目的とした,sim-to-real転送のためのタスク駆動適応フレームワークであるadaptsimを提案する。
まず,目標環境における現在のポリシーの性能に基づいてシミュレーションパラメータ分布を調整するための強化学習を用いたシミュレーションにおける適応ポリシーのメタ学習を行う。
そして, 少量の実データを用いて, 新たなシミュレーションパラメータ分布を推定し, 反復的な実世界適応を行う。
我々は,(1)線形化された二重振り子の跳ね上げ,(2)ボトルの動的テーブルトップ押し,(3)スペチュラを用いた食品の動的スクーピングという3つのロボット作業で実験を行った。
シミュレーションおよびハードウェア実験により,Sys-IDに基づく手法と目標環境におけるタスクポリシーを直接訓練した場合と比較して,AdaptSimが1~3倍の漸近性能と$\sim$2倍の実データ効率を達成することを示した。
関連論文リスト
- Dynamics as Prompts: In-Context Learning for Sim-to-Real System Identifications [23.94013806312391]
そこで本研究では,テキスト内学習を用いてシミュレーション環境パラメータを動的に調整する手法を提案する。
オブジェクトスクーピングとテーブルエアホッケーという2つのタスクにまたがるアプローチを検証する。
提案手法は,ロボットの動的現実シナリオへの展開を推し進め,効率的かつスムーズなシステム識別を実現する。
論文 参考訳(メタデータ) (2024-10-27T07:13:38Z) - LoopSR: Looping Sim-and-Real for Lifelong Policy Adaptation of Legged Robots [20.715834172041763]
本稿では,生涯にわたるポリシー適応フレームワークであるLoopSRを提案する。
さらなる改善のためにシミュレーションで現実世界の環境を再構築する。
継続的なトレーニングを活用することで、LoopSRは強力なベースラインに比べて優れたデータ効率を達成する。
論文 参考訳(メタデータ) (2024-09-26T16:02:25Z) - Sim-to-Real Transfer of Deep Reinforcement Learning Agents for Online Coverage Path Planning [15.792914346054502]
我々は、カバーパス計画(CPP)のための強化学習エージェント(RL)のSim-to-real転送の課題に取り組む。
シミュレーションされたセンサと障害物を利用しながら、現実のロボットやリアルタイムの側面を含む半仮想環境を通じて、シミュレートと現実のギャップを橋渡しする。
高い推測周波数は、一階マルコフのポリシーをシミュレーションから直接転送することを可能にし、高階のポリシーを微調整することで、sim-to-realのギャップをさらに減らすことができる。
論文 参考訳(メタデータ) (2024-06-07T13:24:19Z) - DrEureka: Language Model Guided Sim-To-Real Transfer [64.14314476811806]
シミュレーションで学んだ政策を現実世界に伝達することは、ロボットのスキルを大規模に獲得する上で有望な戦略である。
本稿では,Large Language Models (LLMs) を用いてシム・トゥ・リアル設計の自動化と高速化を行う。
本手法では,ヨガボールの上を歩行する四足歩行や四足歩行など,新しいロボットタスクを解くことができる。
論文 参考訳(メタデータ) (2024-06-04T04:53:05Z) - Evaluating Real-World Robot Manipulation Policies in Simulation [91.55267186958892]
実環境と模擬環境の制御と視覚的格差は、信頼性のある模擬評価の鍵となる課題である。
実環境に完全忠実なデジタル双生児を作らなくても、これらのギャップを軽減できる手法を提案する。
シミュレーション環境の集合体であるSIMPLERを作成した。
論文 参考訳(メタデータ) (2024-05-09T17:30:16Z) - Robust Visual Sim-to-Real Transfer for Robotic Manipulation [79.66851068682779]
シミュレーションにおけるビジュモータポリシーの学習は、現実世界よりも安全で安価である。
しかし、シミュレーションデータと実データとの相違により、シミュレータ訓練されたポリシーは実際のロボットに転送されると失敗することが多い。
視覚的なsim-to-real領域ギャップを埋める一般的なアプローチは、ドメインランダム化(DR)である。
論文 参考訳(メタデータ) (2023-07-28T05:47:24Z) - Zero-shot Sim2Real Adaptation Across Environments [45.44896435487879]
本稿では,実世界のシミュレートされたポリシーを模倣することを学ぶリバースアクショントランスフォーメーション(RAT)ポリシーを提案する。
RATは、新しい環境へのゼロショット適応を達成するために、Universal Policy Network上にデプロイできる。
論文 参考訳(メタデータ) (2023-02-08T11:59:07Z) - Auto-Tuned Sim-to-Real Transfer [143.44593793640814]
シミュレーションで訓練されたポリシーは、しばしば現実世界に移されるときに失敗する。
ドメインのランダム化のようなこの問題に取り組む現在のアプローチには、事前の知識とエンジニアリングが必要である。
実世界に合わせてシミュレータシステムパラメータを自動的にチューニングする手法を提案する。
論文 参考訳(メタデータ) (2021-04-15T17:59:55Z) - TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。
特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。
TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文 参考訳(メタデータ) (2021-01-17T00:29:30Z) - Reactive Long Horizon Task Execution via Visual Skill and Precondition
Models [59.76233967614774]
シミュレーションで学習したモデルを用いて、単純なタスクプランナの構成要素をグラウンド化することで、見知らぬロボットタスクを達成できるシミュレート・トゥ・リアル・トレーニングのアプローチについて述べる。
シミュレーションでは91.6%から98%,実世界の成功率は10%から80%に増加した。
論文 参考訳(メタデータ) (2020-11-17T15:24:01Z) - Predicting Sim-to-Real Transfer with Probabilistic Dynamics Models [3.7692466417039814]
本稿では,RL ポリシーの sim-to-real 転送性能を予測する手法を提案する。
確率力学モデルはポリシーに沿って訓練され、実世界の軌道の固定セットで評価される。
論文 参考訳(メタデータ) (2020-09-27T15:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。