論文の概要: TAX-Pose: Task-Specific Cross-Pose Estimation for Robot Manipulation
- arxiv url: http://arxiv.org/abs/2211.09325v3
- Date: Thu, 2 May 2024 16:04:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-03 22:58:28.176569
- Title: TAX-Pose: Task-Specific Cross-Pose Estimation for Robot Manipulation
- Title(参考訳): TAX-Pose:ロボット操作のためのタスク特異的クロスポース推定
- Authors: Chuer Pan, Brian Okorn, Harry Zhang, Ben Eisner, David Held,
- Abstract要約: 本研究では,与えられた操作タスクに対して2つのオブジェクト間の交差位置を推定する視覚ベースシステムを提案する。
実世界における10個の実演の訓練後, 対象物を一般化する手法の能力を実証する。
- 参考スコア(独自算出の注目度): 14.011777717620282
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How do we imbue robots with the ability to efficiently manipulate unseen objects and transfer relevant skills based on demonstrations? End-to-end learning methods often fail to generalize to novel objects or unseen configurations. Instead, we focus on the task-specific pose relationship between relevant parts of interacting objects. We conjecture that this relationship is a generalizable notion of a manipulation task that can transfer to new objects in the same category; examples include the relationship between the pose of a pan relative to an oven or the pose of a mug relative to a mug rack. We call this task-specific pose relationship "cross-pose" and provide a mathematical definition of this concept. We propose a vision-based system that learns to estimate the cross-pose between two objects for a given manipulation task using learned cross-object correspondences. The estimated cross-pose is then used to guide a downstream motion planner to manipulate the objects into the desired pose relationship (placing a pan into the oven or the mug onto the mug rack). We demonstrate our method's capability to generalize to unseen objects, in some cases after training on only 10 demonstrations in the real world. Results show that our system achieves state-of-the-art performance in both simulated and real-world experiments across a number of tasks. Supplementary information and videos can be found at https://sites.google.com/view/tax-pose/home.
- Abstract(参考訳): ロボットに、見えない物体を効率的に操作し、デモに基づいて関連するスキルを伝達する能力を与えるには、どうすればいいのか?
エンドツーエンドの学習方法は、新しいオブジェクトや目に見えない設定に一般化できないことが多い。
代わりに、相互作用するオブジェクトの関連部分間のタスク固有のポーズ関係に注目します。
この関係は、同じカテゴリの新たな対象に移動できる操作タスクの一般化可能な概念であり、例えば、オーブンに対するパンのポーズとマグラックに対するマグカップのポーズの関係を含む。
我々は、このタスク固有のポーズ関係を「クロスポジション」と呼び、この概念の数学的定義を提供する。
本稿では,学習対象の相互対応を用いて,与えられた操作タスクに対して2つのオブジェクト間の交差位置を推定する視覚ベースシステムを提案する。
次に、推定されたクロスポジションを使用して、下流のモーションプランナーがオブジェクトを所望のポーズ関係(鍋をオーブンに入れたり、マグカップをラグラックに入れたりする)に操作する。
実世界における10個の実演の訓練後, 対象物を一般化する手法の能力を実証する。
その結果,本システムは,シミュレーションおよび実世界の両実験において,様々な課題において,最先端の性能を達成できることが示唆された。
追加情報とビデオはhttps://sites.google.com/view/tax-pose/home.comで見ることができる。
関連論文リスト
- Click to Grasp: Zero-Shot Precise Manipulation via Visual Diffusion Descriptors [30.579707929061026]
本研究は,ゼロショット設定における精密操作のための微細部分記述子の接地について検討する。
我々は、それを密接な意味部分対応タスクとしてフレーミングすることで、この問題に対処する。
我々のモデルは、同じオブジェクトの視覚的に異なるインスタンスのソースイメージからユーザ定義クリックを参照して、特定の部分を操作するためのグリップパポーズを返します。
論文 参考訳(メタデータ) (2024-03-21T16:26:19Z) - ManiPose: A Comprehensive Benchmark for Pose-aware Object Manipulation in Robotics [55.85916671269219]
本稿では,ポーズ変動操作タスクの研究を進めるための先駆的ベンチマークであるManiPoseを紹介する。
包括的データセットは、2936の現実世界のスキャンされた剛体オブジェクトと100の明瞭なオブジェクトに対して、幾何学的に一貫性があり、操作指向の6Dポーズラベルを備えている。
本ベンチマークは,ポーズ推定,ポーズ認識操作,実ロボットのスキル伝達における顕著な進歩を示す。
論文 参考訳(メタデータ) (2024-03-20T07:48:32Z) - Few-Shot In-Context Imitation Learning via Implicit Graph Alignment [15.215659641228655]
オブジェクトのグラフ表現間の条件付きアライメント問題として模倣学習を定式化する。
この条件付けにより、ロボットがデモ直後に新しいオブジェクトのセット上でタスクを実行できる、コンテキスト内学習が可能となることを示す。
論文 参考訳(メタデータ) (2023-10-18T18:26:01Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - LOCATE: Localize and Transfer Object Parts for Weakly Supervised
Affordance Grounding [43.157518990171674]
人間は観察を通して知識を得るのが得意です。
このスキルを得るための重要なステップは、オブジェクトのどの部分がそれぞれのアクションに余裕があるかを特定することです。
画像間のマッチング対象を識別できるLOCATEというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-16T21:47:49Z) - Interacting Hand-Object Pose Estimation via Dense Mutual Attention [97.26400229871888]
3Dハンドオブジェクトのポーズ推定は多くのコンピュータビジョンアプリケーションの成功の鍵となる。
本研究では,手と物体間の微粒な依存関係をモデル化できる新しい相互注意機構を提案する。
提案手法は,高品質かつリアルタイムな推論速度で,物理的に妥当なポーズを生成できる。
論文 参考訳(メタデータ) (2022-11-16T10:01:33Z) - Is an Object-Centric Video Representation Beneficial for Transfer? [86.40870804449737]
トランスアーキテクチャ上にオブジェクト中心のビデオ認識モデルを導入する。
対象中心モデルが先行映像表現より優れていることを示す。
論文 参考訳(メタデータ) (2022-07-20T17:59:44Z) - Watch It Move: Unsupervised Discovery of 3D Joints for Re-Posing of
Articulated Objects [73.23249640099516]
複数視点からの移動を観察することで,これまで見えなかった物体の外観と構造の両方を学習する。
我々の洞察では、互いに相対的に動く隣り合う部分は関節で繋がらなければならない。
本手法は,四足歩行から単腕ロボット,人間に至るまで,さまざまな構造に対して有効であることを示す。
論文 参考訳(メタデータ) (2021-12-21T16:37:48Z) - ZePHyR: Zero-shot Pose Hypothesis Rating [36.52070583343388]
本稿では,ゼロショット物体の姿勢推定法を提案する。
提案手法は仮説生成とスコアリングのフレームワークを用いて,トレーニングに使用されていないオブジェクトに一般化するスコアリング関数の学習に重点を置いている。
そこで本研究では,新しい物体のモデルを素早くスキャンして構築することで,本システムをどのように利用できるかを示す。
論文 参考訳(メタデータ) (2021-04-28T01:48:39Z) - Where2Act: From Pixels to Actions for Articulated 3D Objects [54.19638599501286]
可動部を有する関節物体の押出しや引抜き等の基本動作に関連する高度に局所化された動作可能な情報を抽出する。
シミュレーションでネットワークをトレーニングできるオンラインデータサンプリング戦略を備えた学習から対話までのフレームワークを提案します。
私たちの学習モデルは、現実世界のデータにも転送します。
論文 参考訳(メタデータ) (2021-01-07T18:56:38Z) - Manipulation-Oriented Object Perception in Clutter through Affordance
Coordinate Frames [10.90648422740674]
本研究では,手頃なポーズとカテゴリーレベルのポーズの概念を組み合わせて,Affordance Coordinate Frame(ACF)を導入する。
ACFでは、各オブジェクトのクラスを、各パーソナライズ部品とそれらの互換性の観点から表現し、各パーツは、ロボット操作のためのカテゴリレベルのポーズに関連付けられている。
実験では,ACFがオブジェクト検出の最先端手法と,対象部品のカテゴリレベルのポーズ推定に優れることを示した。
論文 参考訳(メタデータ) (2020-10-16T07:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。