論文の概要: Model-Based Visual Planning with Self-Supervised Functional Distances
- arxiv url: http://arxiv.org/abs/2012.15373v1
- Date: Wed, 30 Dec 2020 23:59:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-18 06:40:12.684373
- Title: Model-Based Visual Planning with Self-Supervised Functional Distances
- Title(参考訳): 自己監督型機能距離を用いたモデルベース視覚計画
- Authors: Stephen Tian, Suraj Nair, Frederik Ebert, Sudeep Dasari, Benjamin
Eysenbach, Chelsea Finn, Sergey Levine
- Abstract要約: モデルに基づく視覚的目標達成のための自己監視手法を提案する。
私たちのアプローチは、オフラインでラベルなしのデータを使って完全に学習します。
このアプローチは,モデルフリーとモデルベース先行手法の両方で大幅に性能が向上することがわかった。
- 参考スコア(独自算出の注目度): 104.83979811803466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A generalist robot must be able to complete a variety of tasks in its
environment. One appealing way to specify each task is in terms of a goal
observation. However, learning goal-reaching policies with reinforcement
learning remains a challenging problem, particularly when hand-engineered
reward functions are not available. Learned dynamics models are a promising
approach for learning about the environment without rewards or task-directed
data, but planning to reach goals with such a model requires a notion of
functional similarity between observations and goal states. We present a
self-supervised method for model-based visual goal reaching, which uses both a
visual dynamics model as well as a dynamical distance function learned using
model-free reinforcement learning. Our approach learns entirely using offline,
unlabeled data, making it practical to scale to large and diverse datasets. In
our experiments, we find that our method can successfully learn models that
perform a variety of tasks at test-time, moving objects amid distractors with a
simulated robotic arm and even learning to open and close a drawer using a
real-world robot. In comparisons, we find that this approach substantially
outperforms both model-free and model-based prior methods. Videos and
visualizations are available here: http://sites.google.com/berkeley.edu/mbold.
- Abstract(参考訳): 汎用ロボットはその環境の中で様々なタスクを完了できなければならない。
各タスクを指定できるひとつの魅力的な方法は、ゴールの観察である。
しかし、特に手書きの報酬関数が利用できない場合、強化学習による目標達成政策の学習は難しい問題である。
学習されたダイナミクスモデルは、報酬やタスク指向データなしで環境について学ぶための有望なアプローチであるが、そのようなモデルで目標に到達する計画には、観測と目標状態の間の機能的類似性の概念が必要である。
本稿では,視覚力学モデルとモデルフリー強化学習を用いて学習した動的距離関数を併用した,モデルベース視覚目標到達のための自己教師あり手法を提案する。
当社のアプローチは、オフラインでラベルのないデータを使用して完全に学習し、大規模で多様なデータセットにスケールすることが現実的になります。
実験では,実世界のロボットを用いて,様々なタスクを遂行するモデル,ロボットアームをシミュレートした不注意な物体を移動させるモデル,さらには引き出しの開閉を学習する手法が有効であることを見出した。
比較すると,本手法はモデルフリーとモデルベース先行手法の両方で大幅に優れていた。
ビデオとビジュアライゼーションは以下の通りである。
関連論文リスト
- SOLD: Reinforcement Learning with Slot Object-Centric Latent Dynamics [16.020835290802548]
Slot-Attention for Object-centric Latent Dynamicsは、画素入力からオブジェクト中心の動的モデルを学ぶ新しいアルゴリズムである。
構造化潜在空間は、モデル解釈可能性を改善するだけでなく、振る舞いモデルが推論する価値のある入力空間も提供することを実証する。
以上の結果から,SOLDは,最先端のモデルベースRLアルゴリズムであるDreamerV3よりも,さまざまなベンチマークロボット環境において優れていた。
論文 参考訳(メタデータ) (2024-10-11T14:03:31Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z) - Affordance Learning from Play for Sample-Efficient Policy Learning [30.701546777177555]
遠隔操作型プレイデータから自己監督型ビジュアルアプライアンスモデルを用いて,効率的なポリシー学習とモーションプランニングを実現する。
モデルベースプランニングとモデルフリーの深層強化学習を組み合わせることで、人々が好む同じ対象領域を好むポリシーを学ぶ。
我々の政策はベースラインよりも4倍速くトレーニングし、新しいオブジェクトを一般化する。
論文 参考訳(メタデータ) (2022-03-01T11:00:35Z) - Zero Experience Required: Plug & Play Modular Transfer Learning for
Semantic Visual Navigation [97.17517060585875]
新たなモジュール移動学習モデルを用いて視覚ナビゲーションに統一的な手法を提案する。
我々のモデルは、1つのソースタスクから経験を効果的に活用し、複数のターゲットタスクに適用することができる。
我々のアプローチはより速く学習し、より良く一般化し、大きなマージンでSoTAモデルを上回っます。
論文 参考訳(メタデータ) (2022-02-05T00:07:21Z) - Dynamic Modeling of Hand-Object Interactions via Tactile Sensing [133.52375730875696]
本研究では,高分解能な触覚グローブを用いて,多種多様な物体に対して4種類のインタラクティブな動作を行う。
我々は,クロスモーダル学習フレームワーク上にモデルを構築し,視覚処理パイプラインを用いてラベルを生成し,触覚モデルを監督する。
この研究は、高密度触覚センシングによる手動物体相互作用における動的モデリングの一歩を踏み出す。
論文 参考訳(メタデータ) (2021-09-09T16:04:14Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。
しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。
本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文 参考訳(メタデータ) (2019-12-30T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。