論文の概要: Intuitive Physics Guided Exploration for Sample Efficient Sim2real
Transfer
- arxiv url: http://arxiv.org/abs/2104.08795v1
- Date: Sun, 18 Apr 2021 10:03:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 13:28:29.923939
- Title: Intuitive Physics Guided Exploration for Sample Efficient Sim2real
Transfer
- Title(参考訳): 試料効率の良いSim2realトランスファーのための直観的物理ガイド探査
- Authors: Buddhika Laknath Semage, Thommen George Karimpanal, Santu Rana, Svetha
Venkatesh
- Abstract要約: 本稿では,理想シミュレーション環境における実世界の軌跡の近似を可能にする潜在要因のタスク固有推定について述べる。
まず、人間物理学の知識と経験に基づく直感的なアクショングループ化を導入し、実環境と対話するための新しい戦略を設計する。
我々は,様々な物理ベースのタスクにおいて,我々のアプローチを実証し,限られた数の実世界インタラクションを用いて,他のベースラインと比較して優れた性能を実現することを示す。
- 参考スコア(独自算出の注目度): 42.23861067181556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Physics-based reinforcement learning tasks can benefit from simplified
physics simulators as they potentially allow near-optimal policies to be
learned in simulation. However, such simulators require the latent factors
(e.g. mass, friction coefficient etc.) of the associated objects and other
environment-specific factors (e.g. wind speed, air density etc.) to be
accurately specified, without which, it could take considerable additional
learning effort to adapt the learned simulation policy to the real environment.
As such a complete specification can be impractical, in this paper, we instead,
focus on learning task-specific estimates of latent factors which allow the
approximation of real world trajectories in an ideal simulation environment.
Specifically, we propose two new concepts: a) action grouping - the idea that
certain types of actions are closely associated with the estimation of certain
latent factors, and; b) partial grounding - the idea that simulation of
task-specific dynamics may not need precise estimation of all the latent
factors. We first introduce intuitive action groupings based on human physics
knowledge and experience, which is then used to design novel strategies for
interacting with the real environment. Next, we describe how prior knowledge of
a task in a given environment can be used to extract the relative importance of
different latent factors, and how this can be used to inform partial grounding,
which enables efficient learning of the task in any arbitrary environment. We
demonstrate our approach in a range of physics based tasks, and show that it
achieves superior performance relative to other baselines, using only a limited
number of real-world interactions.
- Abstract(参考訳): 物理学に基づく強化学習タスクは、単純化された物理シミュレータの恩恵を受ける可能性がある。
しかし、そのようなシミュレータは潜伏因子(例)を必要とする。
質量、摩擦係数など
関連するオブジェクトや他の環境特化要因(例)の
風速、空気密度など)
正確に特定するには、学習したシミュレーションポリシーを実際の環境に適応させるために、さらに多くの学習努力が必要となる。
このような完全な仕様は現実的ではないため、本論文では、理想的なシミュレーション環境における実世界の軌道の近似を可能にする潜在要因のタスク固有の推定を学習することに焦点を当てる。
具体的には,次の2つの新しい概念を提案する:a) アクショングループ - ある種類のアクションが特定の潜伏因子の推定と密接に関連しているという考え方,b) 部分接地 - タスク固有のダイナミクスのシミュレーションは潜伏因子の正確な推定を必要としないかもしれないという考え方。
まず、人間物理学の知識と経験に基づく直感的なアクショングループ化を導入し、実環境と対話するための新しい戦略を設計する。
次に、与えられた環境におけるタスクの事前知識を用いて、異なる潜伏要因の相対的重要性を抽出し、それを部分的な接地情報として利用することにより、任意の環境におけるタスクの効率的な学習を可能にする方法について述べる。
我々は,様々な物理ベースのタスクにおいて,我々のアプローチを実証し,限られた数の実世界インタラクションを用いて,他のベースラインと比較して優れた性能を実現することを示す。
関連論文リスト
- Reward Function Design for Crowd Simulation via Reinforcement Learning [12.449513548800466]
強化学習は仮想的な群集をシミュレートする大きな可能性を示しているが、報酬関数の設計は効率的かつ効率的な結果を達成するために重要である。
本研究では, 特定の報酬関数の妥当性を解析的特性に応じて理論的に把握し, 様々なシナリオを用いて実証的に評価する。
本研究は,新しい群集シミュレーション技術の発展に寄与し,人間のようなナビゲーションの幅広い研究に寄与する。
論文 参考訳(メタデータ) (2023-09-22T12:55:30Z) - AdaptSim: Task-Driven Simulation Adaptation for Sim-to-Real Transfer [10.173835871228718]
AdaptSimは、ターゲット(現実)環境でのタスクパフォーマンスの最適化を目的としている。
まず、強化学習を用いたシミュレーションにおける適応ポリシーをメタラーニングする。
次に、ポリシートレーニングのための新しいシミュレーションパラメータ分布を推定することにより、反復的実世界の適応を行う。
論文 参考訳(メタデータ) (2023-02-09T19:10:57Z) - Towards Autonomous Grading In The Real World [4.651327752886103]
我々は、不均一な領域を平坦化するためにドーザを必要とする自律的なグレーディングの問題に取り組むことを目的としている。
本研究では,現実的な物理シミュレーションと実ドーザーのダイナミックスと感覚情報を模倣した拡張された実プロトタイプ環境の両方を設計する。
論文 参考訳(メタデータ) (2022-06-13T12:21:20Z) - An in-depth experimental study of sensor usage and visual reasoning of
robots navigating in real environments [20.105395754497202]
実物的エージェントの性能と推論能力について検討し、シミュレーションで訓練し、2つの異なる物理的環境に展開する。
我々は,PointGoalタスクに対して,多種多様なタスクを事前訓練し,対象環境の模擬バージョンを微調整したエージェントが,sim2real転送をモデル化せずに競争性能に達することを示す。
論文 参考訳(メタデータ) (2021-11-29T16:27:29Z) - BEHAVIOR: Benchmark for Everyday Household Activities in Virtual,
Interactive, and Ecological Environments [70.18430114842094]
本稿では,シミュレーションにおける100のアクティビティを持つAIのベンチマークであるBEHAVIORを紹介する。
これらの活動は現実的で多様性があり、複雑であるように設計されています。
われわれは、バーチャルリアリティー(VR)における500件の人間デモを含む。
論文 参考訳(メタデータ) (2021-08-06T23:36:23Z) - Zero-Shot Reinforcement Learning on Graphs for Autonomous Exploration
Under Uncertainty [6.42522897323111]
シミュレーション環境で高性能探査政策を自己学習するための枠組みを提案する。
本稿では,グラフニューラルネットワークと深層強化学習を併用した新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-11T02:42:17Z) - TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。
特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。
TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文 参考訳(メタデータ) (2021-01-17T00:29:30Z) - Reactive Long Horizon Task Execution via Visual Skill and Precondition
Models [59.76233967614774]
シミュレーションで学習したモデルを用いて、単純なタスクプランナの構成要素をグラウンド化することで、見知らぬロボットタスクを達成できるシミュレート・トゥ・リアル・トレーニングのアプローチについて述べる。
シミュレーションでは91.6%から98%,実世界の成功率は10%から80%に増加した。
論文 参考訳(メタデータ) (2020-11-17T15:24:01Z) - CausalWorld: A Robotic Manipulation Benchmark for Causal Structure and
Transfer Learning [138.40338621974954]
CausalWorldは、ロボット操作環境における因果構造と伝達学習のベンチマークである。
タスクは、ブロックのセットから3D形状を構築することで構成される。
論文 参考訳(メタデータ) (2020-10-08T23:01:13Z) - Point Cloud Based Reinforcement Learning for Sim-to-Real and Partial
Observability in Visual Navigation [62.22058066456076]
強化学習(Reinforcement Learning, RL)は、複雑なロボットタスクを解決する強力なツールである。
RL は sim-to-real transfer problem として知られる現実世界では直接作用しない。
本稿では,点雲と環境ランダム化によって構築された観測空間を学習する手法を提案する。
論文 参考訳(メタデータ) (2020-07-27T17:46:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。