論文の概要: Equivariant Descriptor Fields: SE(3)-Equivariant Energy-Based Models for
End-to-End Visual Robotic Manipulation Learning
- arxiv url: http://arxiv.org/abs/2206.08321v1
- Date: Thu, 16 Jun 2022 17:26:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-17 18:26:17.685208
- Title: Equivariant Descriptor Fields: SE(3)-Equivariant Energy-Based Models for
End-to-End Visual Robotic Manipulation Learning
- Title(参考訳): 等変記述体:SE(3)-等変エネルギーモデルによる視覚ロボットマニピュレーション学習
- Authors: Hyunwoo Ryu, Jeong-Hoon Lee, Hong-in Lee, Jongeun Choi
- Abstract要約: 我々は,ポイントクラウド入力からの視覚ロボット操作のための終端SE(3)-同変モデルを提案する。
我々のモデルは、事前の知識がなくてもゼロから学習できることを示します。
- 参考スコア(独自算出の注目度): 2.8388425545775386
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end learning for visual robotic manipulation is known to suffer from
sample inefficiency, requiring a large number of demonstrations. The spatial
roto-translation equivariance, or the SE(3)-equivariance can be exploited to
improve the sample efficiency for learning robotic manipulation. In this paper,
we present fully end-to-end SE(3)-equivariant models for visual robotic
manipulation from a point cloud input. By utilizing the representation theory
of the Lie group, we construct novel SE(3)-equivariant energy-based models that
allow highly sample efficient end-to-end learning. We show that our models can
learn from scratch without prior knowledge yet is highly sample efficient (~10
demonstrations are enough). Furthermore, we show that the trained models can
generalize to tasks with (i) previously unseen target object poses, (ii)
previously unseen target object instances of the category, and (iii) previously
unseen visual distractors. We experiment with 6-DoF robotic manipulation tasks
to validate our models' sample efficiency and generalizability. Codes are
available at: https://github.com/tomato1mule/edf
- Abstract(参考訳): 視覚ロボット操作のためのエンド・ツー・エンド学習はサンプルの非効率に苦しむことが知られており、多くのデモンストレーションを必要とする。
ロボット操作の学習におけるサンプル効率を向上させるために、空間ロトトランスレーション等分散(se(3)等分散)を利用することができる。
本稿では,ポイントクラウド入力からの視覚ロボット操作のための,完全エンドツーエンドSE(3)-equivariantモデルを提案する。
リー群の表現理論を利用して、高サンプリング効率のエンドツーエンド学習を可能にする新しいSE(3)-等変エネルギーベースモデルを構築する。
私たちのモデルは、事前の知識なしにゼロから学べるが、非常にサンプル効率が高い(約10のデモで十分)。
さらに、訓練されたモデルがタスクに一般化できることを示す。
(i)以前は見当たらない対象物のポーズ
(ii) カテゴリの未確認対象オブジェクトインスタンス、及び
(iii)以前は見えなかった視覚障害。
我々は,6-DoFロボット操作を用いて,モデルのサンプル効率と一般化性を検証する。
コードは、https://github.com/tomato1mule/edf.comで入手できる。
関連論文リスト
- What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Learning Unsupervised World Models for Autonomous Driving via Discrete
Diffusion [38.48682990918926]
センサ観測をVQVAEでトークン化する新しい世界モデリング手法を提案する。
本研究は,ロボットエージェントに対するGPTのような教師なし学習のパワーを,トークン化エージェント体験における離散拡散によって解き放つことを示す。
論文 参考訳(メタデータ) (2023-11-02T06:21:56Z) - Pave the Way to Grasp Anything: Transferring Foundation Models for
Universal Pick-Place Robots [50.73735524550534]
そこで本稿では,最先端基礎モデルによって生成された言語基底セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
マスクから伝達される正確なセマンティクスとジオメトリを多視点ポリシーモデルに統合することにより、正確なオブジェクトのポーズを認識し、サンプル効率のよい学習を可能にする。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Lossless Adaptation of Pretrained Vision Models For Robotic Manipulation [25.47207030637466]
一般的な視覚学習タスクで事前訓練された大規模なモデルは、幅広い特殊認識問題に対して有用な表現を提供することができる。
古典的な微調整のこの欠点に対処するために、"ロスレス適応"を導入する。
パラメータ効率の良いアダプタの適切な配置は、凍結した事前訓練された表現とフルエンド・ツー・エンドの微調整の間の性能ギャップを著しく低減できることを示す。
論文 参考訳(メタデータ) (2023-04-13T15:06:28Z) - Composing Ensembles of Pre-trained Models via Iterative Consensus [95.10641301155232]
本稿では,異なる事前学習モデルのアンサンブルを構成するための統一的なフレームワークを提案する。
事前学習したモデルを「ジェネレータ」あるいは「スコーラ」として使用し、クローズドループ反復コンセンサス最適化により構成する。
スコアラーのアンサンブルによって達成されたコンセンサスは、シングルスコアラーのフィードバックよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-20T18:46:31Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z) - Factored World Models for Zero-Shot Generalization in Robotic
Manipulation [7.258229016768018]
我々は、オブジェクト指向世界モデルを用いてロボットピック・アンド・プレイス・タスクを一般化することを学ぶ。
グラフニューラルネットワークの残差スタックを使用して、ノードとエッジの両方のニューラルネットワークにおいて、複数のレベルのアクション情報を受信する。
モデルアンサンブルを用いて、最大12個のピック・アンド・プレイス・アクションを含むタスクを検索で計画できることが示される。
論文 参考訳(メタデータ) (2022-02-10T21:26:11Z) - Learning to See before Learning to Act: Visual Pre-training for
Manipulation [48.731528716324355]
視覚タスクの事前学習は、物体を操作するための学習の一般化とサンプル効率を大幅に向上させる。
本稿では,モデルパラメータを視覚ネットワークからアベイランス予測ネットワークへ直接転送することで,ゼロショット適応が成功することを示す。
ほんの少しのロボット経験があれば、より優れた結果を得るために、余分なモデルをさらに微調整できる。
論文 参考訳(メタデータ) (2021-07-01T17:58:37Z) - SA-Det3D: Self-Attention Based Context-Aware 3D Object Detection [9.924083358178239]
本稿では,3次元物体検出におけるコンテキストモデリングのための2種類の自己注意法を提案する。
まず,現状のbev,voxel,ポイントベース検出器にペアワイズ自着機構を組み込む。
次に,ランダムにサンプリングされた位置の変形を学習することにより,最も代表的な特徴のサブセットをサンプリングするセルフアテンション変種を提案する。
論文 参考訳(メタデータ) (2021-01-07T18:30:32Z) - Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。
しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。
本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文 参考訳(メタデータ) (2019-12-30T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。