論文の概要: Equivariant Descriptor Fields: SE(3)-Equivariant Energy-Based Models for
End-to-End Visual Robotic Manipulation Learning
- arxiv url: http://arxiv.org/abs/2206.08321v1
- Date: Thu, 16 Jun 2022 17:26:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-17 18:26:17.685208
- Title: Equivariant Descriptor Fields: SE(3)-Equivariant Energy-Based Models for
End-to-End Visual Robotic Manipulation Learning
- Title(参考訳): 等変記述体:SE(3)-等変エネルギーモデルによる視覚ロボットマニピュレーション学習
- Authors: Hyunwoo Ryu, Jeong-Hoon Lee, Hong-in Lee, Jongeun Choi
- Abstract要約: 我々は,ポイントクラウド入力からの視覚ロボット操作のための終端SE(3)-同変モデルを提案する。
我々のモデルは、事前の知識がなくてもゼロから学習できることを示します。
- 参考スコア(独自算出の注目度): 2.8388425545775386
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end learning for visual robotic manipulation is known to suffer from
sample inefficiency, requiring a large number of demonstrations. The spatial
roto-translation equivariance, or the SE(3)-equivariance can be exploited to
improve the sample efficiency for learning robotic manipulation. In this paper,
we present fully end-to-end SE(3)-equivariant models for visual robotic
manipulation from a point cloud input. By utilizing the representation theory
of the Lie group, we construct novel SE(3)-equivariant energy-based models that
allow highly sample efficient end-to-end learning. We show that our models can
learn from scratch without prior knowledge yet is highly sample efficient (~10
demonstrations are enough). Furthermore, we show that the trained models can
generalize to tasks with (i) previously unseen target object poses, (ii)
previously unseen target object instances of the category, and (iii) previously
unseen visual distractors. We experiment with 6-DoF robotic manipulation tasks
to validate our models' sample efficiency and generalizability. Codes are
available at: https://github.com/tomato1mule/edf
- Abstract(参考訳): 視覚ロボット操作のためのエンド・ツー・エンド学習はサンプルの非効率に苦しむことが知られており、多くのデモンストレーションを必要とする。
ロボット操作の学習におけるサンプル効率を向上させるために、空間ロトトランスレーション等分散(se(3)等分散)を利用することができる。
本稿では,ポイントクラウド入力からの視覚ロボット操作のための,完全エンドツーエンドSE(3)-equivariantモデルを提案する。
リー群の表現理論を利用して、高サンプリング効率のエンドツーエンド学習を可能にする新しいSE(3)-等変エネルギーベースモデルを構築する。
私たちのモデルは、事前の知識なしにゼロから学べるが、非常にサンプル効率が高い(約10のデモで十分)。
さらに、訓練されたモデルがタスクに一般化できることを示す。
(i)以前は見当たらない対象物のポーズ
(ii) カテゴリの未確認対象オブジェクトインスタンス、及び
(iii)以前は見えなかった視覚障害。
我々は,6-DoFロボット操作を用いて,モデルのサンプル効率と一般化性を検証する。
コードは、https://github.com/tomato1mule/edf.comで入手できる。
関連論文リスト
- Attribute-to-Delete: Machine Unlearning via Datamodel Matching [65.13151619119782]
機械学習 -- 事前訓練された機械学習モデルで、小さな"ターゲットセット"トレーニングデータを効率的に削除する -- は、最近関心を集めている。
最近の研究では、機械学習技術はこのような困難な環境では耐えられないことが示されている。
論文 参考訳(メタデータ) (2024-10-30T17:20:10Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Diffusion-EDFs: Bi-equivariant Denoising Generative Modeling on SE(3)
for Visual Robotic Manipulation [5.11432473998551]
Diffusion-EDFsは、視覚ロボット操作タスクのための新しいSE(3)等価拡散に基づくアプローチである。
提案手法は,1時間以内で実効的なエンドツーエンドトレーニングを行うためには,5~10回の人間による実演を必要とせず,顕著なデータ効率を実現する。
論文 参考訳(メタデータ) (2023-09-06T03:42:20Z) - Lossless Adaptation of Pretrained Vision Models For Robotic Manipulation [25.47207030637466]
一般的な視覚学習タスクで事前訓練された大規模なモデルは、幅広い特殊認識問題に対して有用な表現を提供することができる。
古典的な微調整のこの欠点に対処するために、"ロスレス適応"を導入する。
パラメータ効率の良いアダプタの適切な配置は、凍結した事前訓練された表現とフルエンド・ツー・エンドの微調整の間の性能ギャップを著しく低減できることを示す。
論文 参考訳(メタデータ) (2023-04-13T15:06:28Z) - Composing Ensembles of Pre-trained Models via Iterative Consensus [95.10641301155232]
本稿では,異なる事前学習モデルのアンサンブルを構成するための統一的なフレームワークを提案する。
事前学習したモデルを「ジェネレータ」あるいは「スコーラ」として使用し、クローズドループ反復コンセンサス最適化により構成する。
スコアラーのアンサンブルによって達成されたコンセンサスは、シングルスコアラーのフィードバックよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-20T18:46:31Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z) - Factored World Models for Zero-Shot Generalization in Robotic
Manipulation [7.258229016768018]
我々は、オブジェクト指向世界モデルを用いてロボットピック・アンド・プレイス・タスクを一般化することを学ぶ。
グラフニューラルネットワークの残差スタックを使用して、ノードとエッジの両方のニューラルネットワークにおいて、複数のレベルのアクション情報を受信する。
モデルアンサンブルを用いて、最大12個のピック・アンド・プレイス・アクションを含むタスクを検索で計画できることが示される。
論文 参考訳(メタデータ) (2022-02-10T21:26:11Z) - Learning to See before Learning to Act: Visual Pre-training for
Manipulation [48.731528716324355]
視覚タスクの事前学習は、物体を操作するための学習の一般化とサンプル効率を大幅に向上させる。
本稿では,モデルパラメータを視覚ネットワークからアベイランス予測ネットワークへ直接転送することで,ゼロショット適応が成功することを示す。
ほんの少しのロボット経験があれば、より優れた結果を得るために、余分なモデルをさらに微調整できる。
論文 参考訳(メタデータ) (2021-07-01T17:58:37Z) - SA-Det3D: Self-Attention Based Context-Aware 3D Object Detection [9.924083358178239]
本稿では,3次元物体検出におけるコンテキストモデリングのための2種類の自己注意法を提案する。
まず,現状のbev,voxel,ポイントベース検出器にペアワイズ自着機構を組み込む。
次に,ランダムにサンプリングされた位置の変形を学習することにより,最も代表的な特徴のサブセットをサンプリングするセルフアテンション変種を提案する。
論文 参考訳(メタデータ) (2021-01-07T18:30:32Z) - Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。
しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。
本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文 参考訳(メタデータ) (2019-12-30T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。