論文の概要: GAPartManip: A Large-scale Part-centric Dataset for Material-Agnostic Articulated Object Manipulation
- arxiv url: http://arxiv.org/abs/2411.18276v1
- Date: Wed, 27 Nov 2024 12:11:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:25:44.933454
- Title: GAPartManip: A Large-scale Part-centric Dataset for Material-Agnostic Articulated Object Manipulation
- Title(参考訳): GAPartManip: 物質非依存のArticulated Object Manipulationのための大規模部分中心データセット
- Authors: Wenbo Cui, Chengyang Zhao, Songlin Wei, Jiazhao Zhang, Haoran Geng, Yaran Chen, He Wang,
- Abstract要約: 音声操作のための大規模部分中心データセットを提案する。
我々は、深度推定と相互作用ポーズ予測のための最先端のいくつかの手法と統合する。
実験により、我々のデータセットは深度知覚と行動可能な相互作用の予測の性能を大幅に改善することが示された。
- 参考スコア(独自算出の注目度): 9.593020996636932
- License:
- Abstract: Effectively manipulating articulated objects in household scenarios is a crucial step toward achieving general embodied artificial intelligence. Mainstream research in 3D vision has primarily focused on manipulation through depth perception and pose detection. However, in real-world environments, these methods often face challenges due to imperfect depth perception, such as with transparent lids and reflective handles. Moreover, they generally lack the diversity in part-based interactions required for flexible and adaptable manipulation. To address these challenges, we introduced a large-scale part-centric dataset for articulated object manipulation that features both photo-realistic material randomizations and detailed annotations of part-oriented, scene-level actionable interaction poses. We evaluated the effectiveness of our dataset by integrating it with several state-of-the-art methods for depth estimation and interaction pose prediction. Additionally, we proposed a novel modular framework that delivers superior and robust performance for generalizable articulated object manipulation. Our extensive experiments demonstrate that our dataset significantly improves the performance of depth perception and actionable interaction pose prediction in both simulation and real-world scenarios.
- Abstract(参考訳): 家庭のシナリオで音声オブジェクトを効果的に操作することは、一般的な具体的人工知能を達成するための重要なステップである。
3次元視覚の主流研究は、主に深度知覚とポーズ検出による操作に焦点を当てている。
しかし、現実の環境では、これらの手法は透明な蓋や反射ハンドルのような不完全な深度知覚のためにしばしば困難に直面する。
さらに、それらは、柔軟で適応可能な操作に必要な部分ベースの相互作用の多様性を欠いている。
これらの課題に対処するため、我々は、写真リアルな素材ランダム化と、パート指向でシーンレベルのアクション可能なインタラクションポーズの詳細なアノテーションの両方を特徴とする、オブジェクト操作のための大規模部分中心データセットを導入した。
深度推定と相互作用ポーズ予測のためのいくつかの最先端手法と組み合わせて,データセットの有効性を評価した。
さらに,一般化可能なオブジェクト操作のための高性能かつ堅牢な性能を実現する新しいモジュラーフレームワークを提案する。
我々の大規模な実験により、我々のデータセットは、シミュレーションと実世界のシナリオの両方において、深度知覚と行動可能な相互作用の予測を著しく改善することを示した。
関連論文リスト
- EC-Diffuser: Multi-Object Manipulation via Entity-Centric Behavior Generation [25.12999060040265]
高次元観測から物体を操作することを学ぶことは重要な課題である。
最近のアプローチでは、大規模なオフラインデータを使用して、ピクセル観測からモデルをトレーニングしている。
本稿では、オブジェクト中心の表現とエンティティ中心のトランスフォーマーを活用する新しい行動クローニング(BC)手法を提案する。
論文 参考訳(メタデータ) (2024-12-25T13:50:15Z) - Efficient Object-centric Representation Learning with Pre-trained Geometric Prior [1.9685736810241874]
本稿では、幾何学的理解を重視し、事前学習された視覚モデルを利用して物体発見を促進する弱教師付きフレームワークを提案する。
本手法では,オブジェクト中心学習に特化して設計された効率的なスロットデコーダを導入し,露骨な深度情報を必要としない多目的シーンの効率的な表現を可能にする。
論文 参考訳(メタデータ) (2024-12-16T20:01:35Z) - ManipGPT: Is Affordance Segmentation by Large Vision Models Enough for Articulated Object Manipulation? [17.356760351203715]
本稿では,調音対象の最適相互作用領域を予測するためのフレームワークであるManipGPTを紹介する。
我々は、シミュレートされた9.9kの画像と実際の画像のデータセットを作成し、シミュレートとリアルのギャップを埋めた。
我々は,ロボット操作のシナリオに対して,モデルのコンテキスト内セグメンテーション機能を適用することにより,部分レベルの割当セグメンテーションを大幅に改善した。
論文 参考訳(メタデータ) (2024-12-13T11:22:01Z) - AugInsert: Learning Robust Visual-Force Policies via Data Augmentation for Object Assembly Tasks [7.631503105866245]
本稿では,高精度オブジェクト集合タスクの文脈における堅牢な視覚力ポリシーの学習に主眼を置いている。
我々は,オンラインデータ拡張を通じて人間による実演を拡大することにより,限られた専門家データに基づいて多感覚入力によるコンタクトリッチな操作ポリシーを学習することを目指している。
論文 参考訳(メタデータ) (2024-10-19T04:19:52Z) - Articulated Object Manipulation using Online Axis Estimation with SAM2-Based Tracking [59.87033229815062]
アーティキュレートされたオブジェクト操作は、オブジェクトの軸を慎重に考慮する必要がある、正確なオブジェクトインタラクションを必要とする。
従来の研究では、対話的な知覚を用いて関節のある物体を操作するが、通常、オープンループのアプローチは相互作用のダイナミクスを見渡すことに悩まされる。
本稿では,対話的知覚と3次元点雲からのオンライン軸推定を統合したクローズドループパイプラインを提案する。
論文 参考訳(メタデータ) (2024-09-24T17:59:56Z) - Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Learn to Predict How Humans Manipulate Large-sized Objects from
Interactive Motions [82.90906153293585]
本稿では,動きデータと動的記述子を融合させるグラフニューラルネットワークHO-GCNを提案する。
動的記述子を消費するネットワークは、最先端の予測結果が得られ、未確認オブジェクトへのネットワークの一般化に役立つことを示す。
論文 参考訳(メタデータ) (2022-06-25T09:55:39Z) - Object Manipulation via Visual Target Localization [64.05939029132394]
オブジェクトを操作するための訓練エージェントは、多くの課題を提起します。
本研究では,対象物体を探索する環境を探索し,位置が特定されると3次元座標を計算し,対象物が見えない場合でも3次元位置を推定する手法を提案する。
評価の結果,同じ感覚スイートにアクセス可能なモデルに比べて,成功率が3倍に向上したことが示された。
論文 参考訳(メタデータ) (2022-03-15T17:59:01Z) - VAT-Mart: Learning Visual Action Trajectory Proposals for Manipulating
3D ARTiculated Objects [19.296344218177534]
3次元の明瞭な物体の空間は、その無数の意味圏、多様な形状幾何学、複雑な部分関数に非常に豊富である。
それまでの作業は, 関節パラメータを推定し, 3次元関節物体の視覚的表現として機能する, 抽象運動学的な構造が主流であった。
本研究では,物体中心の動作可能な視覚的先入観を,知覚システムが運動構造推定よりも動作可能なガイダンスを出力する,新しい知覚-相互作用ハンドシェイキングポイントとして提案する。
論文 参考訳(メタデータ) (2021-06-28T07:47:31Z) - Measuring Generalisation to Unseen Viewpoints, Articulations, Shapes and
Objects for 3D Hand Pose Estimation under Hand-Object Interaction [137.28465645405655]
HANDS'19は、現在の3Dハンドポーズ推定器(HPE)がトレーニングセットのポーズを補間し、外挿する能力を評価するための課題である。
本研究では,最先端手法の精度が低下し,トレーニングセットから外れたポーズでほとんど失敗することを示す。
論文 参考訳(メタデータ) (2020-03-30T19:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。