論文の概要: You Only Demonstrate Once: Category-Level Manipulation from Single
Visual Demonstration
- arxiv url: http://arxiv.org/abs/2201.12716v1
- Date: Sun, 30 Jan 2022 03:59:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-02 10:09:21.346713
- Title: You Only Demonstrate Once: Category-Level Manipulation from Single
Visual Demonstration
- Title(参考訳): 一度だけデモする:単一視覚デモからカテゴリーレベル操作
- Authors: Bowen Wen, Wenzhao Lian, Kostas Bekris, Stefan Schaal
- Abstract要約: この研究は、新しいカテゴリーレベルの操作フレームワークを提案する。
オブジェクト中心のカテゴリーレベルの表現とモデルなしの6 DoFモーショントラッキングを使用する。
実験は、高精度な組み立てにおける様々な産業課題において、その効果を実証している。
- 参考スコア(独自算出の注目度): 9.245605426105922
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Promising results have been achieved recently in category-level manipulation
that generalizes across object instances. Nevertheless, it often requires
expensive real-world data collection and manual specification of semantic
keypoints for each object category and task. Additionally, coarse keypoint
predictions and ignoring intermediate action sequences hinder adoption in
complex manipulation tasks beyond pick-and-place. This work proposes a novel,
category-level manipulation framework that leverages an object-centric,
category-level representation and model-free 6 DoF motion tracking. The
canonical object representation is learned solely in simulation and then used
to parse a category-level, task trajectory from a single demonstration video.
The demonstration is reprojected to a target trajectory tailored to a novel
object via the canonical representation. During execution, the manipulation
horizon is decomposed into long-range, collision-free motion and last-inch
manipulation. For the latter part, a category-level behavior cloning (CatBC)
method leverages motion tracking to perform closed-loop control. CatBC follows
the target trajectory, projected from the demonstration and anchored to a
dynamically selected category-level coordinate frame. The frame is
automatically selected along the manipulation horizon by a local attention
mechanism. This framework allows to teach different manipulation strategies by
solely providing a single demonstration, without complicated manual
programming. Extensive experiments demonstrate its efficacy in a range of
challenging industrial tasks in high-precision assembly, which involve learning
complex, long-horizon policies. The process exhibits robustness against
uncertainty due to dynamics as well as generalization across object instances
and scene configurations.
- Abstract(参考訳): 有望な結果は最近、オブジェクトインスタンスをまたがるカテゴリレベルの操作で達成されている。
それにもかかわらず、しばしば高価な現実世界のデータ収集と各オブジェクトのカテゴリとタスクのセマンティックキーポイントのマニュアル仕様を必要とする。
さらに、粗いキーポイント予測や中間アクションシーケンスの無視は、ピック・アンド・プレイスを超えた複雑な操作タスクの採用を妨げる。
本研究では、オブジェクト中心のカテゴリレベルの表現とモデルフリーな6 DoFモーショントラッキングを活用する新しいカテゴリレベルの操作フレームワークを提案する。
標準オブジェクト表現はシミュレーションでのみ学習され、単一のデモビデオからカテゴリレベルのタスクの軌跡を解析するために使用される。
デモは、カノニカル表現を介して、新しいオブジェクトに調整されたターゲット軌跡に再投影される。
実行中、操作水平線は長距離、衝突のない動きと最後のインチ操作に分解される。
後者では、カテゴリーレベルの動作クローニング(CatBC)手法がモーショントラッキングを活用してクローズドループ制御を行う。
CatBCは目標軌道に従い、デモから投影され、動的に選択されたカテゴリーレベルの座標フレームに固定される。
フレームは、局所注意機構により操作地平線に沿って自動的に選択される。
このフレームワークは、複雑な手動プログラミングなしで、単一のデモだけを提供することで、さまざまな操作戦略を学べる。
広範囲にわたる実験は、複雑な長方形の政策を学ぶことを含む、精密な組立における様々な挑戦的な産業的タスクにおいてその効果を示す。
このプロセスは、オブジェクトインスタンスとシーン構成の一般化だけでなく、ダイナミクスによる不確実性に対する堅牢性を示す。
関連論文リスト
- Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Kinematic-aware Prompting for Generalizable Articulated Object
Manipulation with LLMs [53.66070434419739]
汎用的なオブジェクト操作は、ホームアシストロボットにとって不可欠である。
本稿では,物体のキネマティックな知識を持つ大規模言語モデルに対して,低レベル動作経路を生成するキネマティック・アウェア・プロンプト・フレームワークを提案する。
我々のフレームワークは8つのカテゴリで従来の手法よりも優れており、8つの未確認対象カテゴリに対して強力なゼロショット能力を示している。
論文 参考訳(メタデータ) (2023-11-06T03:26:41Z) - Contrastive Lift: 3D Object Instance Segmentation by Slow-Fast
Contrastive Fusion [110.84357383258818]
本稿では,2次元セグメントを3次元に上げ,ニューラルネットワーク表現を用いて融合させる新しい手法を提案する。
このアプローチの中核は、高速なクラスタリング目的関数であり、多数のオブジェクトを持つシーンにスケーラブルで適しています。
我々のアプローチは、ScanNet、Hypersim、Replicaのデータセットからの挑戦的なシーンにおいて、最先端の状況よりも優れています。
論文 参考訳(メタデータ) (2023-06-07T17:57:45Z) - USEEK: Unsupervised SE(3)-Equivariant 3D Keypoints for Generalizable
Manipulation [19.423310410631085]
U.S.EEKは、カテゴリー内のインスタンス間のアライメントを楽しむ、教師なしSE(3)-同変キーポイント法である。
UEEKを手にすると、ロボットはカテゴリレベルのタスク関連オブジェクトフレームを効率的かつ説明可能な方法で推論することができる。
論文 参考訳(メタデータ) (2022-09-28T06:42:29Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z) - "What's This?" -- Learning to Segment Unknown Objects from Manipulation
Sequences [27.915309216800125]
本稿では,ロボットマニピュレータを用いた自己教師型把握対象セグメンテーションのための新しいフレームワークを提案する。
本稿では,モーションキューとセマンティック知識を共同で組み込んだ,エンドツーエンドのトレーニング可能な単一アーキテクチャを提案する。
我々の手法は、運動ロボットや3Dオブジェクトモデルの視覚的登録にも、正確な手眼の校正や追加センサーデータにも依存しない。
論文 参考訳(メタデータ) (2020-11-06T10:55:28Z) - DyStaB: Unsupervised Object Segmentation via Dynamic-Static
Bootstrapping [72.84991726271024]
我々は,コヒーレントなシーン全体を移動しているように見えるシーンの画像の一部を検出し,分割するための教師なしの手法について述べる。
提案手法はまず,セグメント間の相互情報を最小化することにより,運動場を分割する。
セグメントを使用してオブジェクトモデルを学習し、静的なイメージの検出に使用することができる。
論文 参考訳(メタデータ) (2020-08-16T22:05:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。