論文の概要: GAPartManip: A Large-scale Part-centric Dataset for Material-Agnostic Articulated Object Manipulation
- arxiv url: http://arxiv.org/abs/2411.18276v1
- Date: Wed, 27 Nov 2024 12:11:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-01 15:52:53.653604
- Title: GAPartManip: A Large-scale Part-centric Dataset for Material-Agnostic Articulated Object Manipulation
- Title(参考訳): GAPartManip: 物質非依存のArticulated Object Manipulationのための大規模部分中心データセット
- Authors: Wenbo Cui, Chengyang Zhao, Songlin Wei, Jiazhao Zhang, Haoran Geng, Yaran Chen, He Wang,
- Abstract要約: 音声操作のための大規模部分中心データセットを提案する。
我々は、深度推定と相互作用ポーズ予測のための最先端のいくつかの手法と統合する。
実験により、我々のデータセットは深度知覚と行動可能な相互作用の予測の性能を大幅に改善することが示された。
- 参考スコア(独自算出の注目度): 9.593020996636932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effectively manipulating articulated objects in household scenarios is a crucial step toward achieving general embodied artificial intelligence. Mainstream research in 3D vision has primarily focused on manipulation through depth perception and pose detection. However, in real-world environments, these methods often face challenges due to imperfect depth perception, such as with transparent lids and reflective handles. Moreover, they generally lack the diversity in part-based interactions required for flexible and adaptable manipulation. To address these challenges, we introduced a large-scale part-centric dataset for articulated object manipulation that features both photo-realistic material randomizations and detailed annotations of part-oriented, scene-level actionable interaction poses. We evaluated the effectiveness of our dataset by integrating it with several state-of-the-art methods for depth estimation and interaction pose prediction. Additionally, we proposed a novel modular framework that delivers superior and robust performance for generalizable articulated object manipulation. Our extensive experiments demonstrate that our dataset significantly improves the performance of depth perception and actionable interaction pose prediction in both simulation and real-world scenarios.
- Abstract(参考訳): 家庭のシナリオで音声オブジェクトを効果的に操作することは、一般的な具体的人工知能を達成するための重要なステップである。
3次元視覚の主流研究は、主に深度知覚とポーズ検出による操作に焦点を当てている。
しかし、現実の環境では、これらの手法は透明な蓋や反射ハンドルのような不完全な深度知覚のためにしばしば困難に直面する。
さらに、それらは、柔軟で適応可能な操作に必要な部分ベースの相互作用の多様性を欠いている。
これらの課題に対処するため、我々は、写真リアルな素材ランダム化と、パート指向でシーンレベルのアクション可能なインタラクションポーズの詳細なアノテーションの両方を特徴とする、オブジェクト操作のための大規模部分中心データセットを導入した。
深度推定と相互作用ポーズ予測のためのいくつかの最先端手法と組み合わせて,データセットの有効性を評価した。
さらに,一般化可能なオブジェクト操作のための高性能かつ堅牢な性能を実現する新しいモジュラーフレームワークを提案する。
我々の大規模な実験により、我々のデータセットは、シミュレーションと実世界のシナリオの両方において、深度知覚と行動可能な相互作用の予測を著しく改善することを示した。
関連論文リスト
- IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。
マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。
次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文 参考訳(メタデータ) (2025-04-09T12:36:48Z) - ArtGS: Building Interactable Replicas of Complex Articulated Objects via Gaussian Splatting [66.29782808719301]
コンピュータビジョンにおいて、音声で表現されたオブジェクトを構築することが重要な課題である。
既存のメソッドは、しばしば異なるオブジェクト状態間で効果的に情報を統合できない。
3次元ガウスを柔軟かつ効率的な表現として活用する新しいアプローチであるArtGSを紹介する。
論文 参考訳(メタデータ) (2025-02-26T10:25:32Z) - V-HOP: Visuo-Haptic 6D Object Pose Tracking [18.984396185797667]
人間は自然に視覚と触覚を統合し、操作中に頑健な物体の知覚を行う。
事前のポーズ推定研究は視覚的・触覚的・触覚的フィードバックを組み合わせようと試みている。
視覚と触覚の入力をシームレスに統合する新しいビジュオ触覚変換器を用いたオブジェクトポーズトラッカーを提案する。
論文 参考訳(メタデータ) (2025-02-24T18:59:50Z) - ManipGPT: Is Affordance Segmentation by Large Vision Models Enough for Articulated Object Manipulation? [17.356760351203715]
本稿では,調音対象の最適相互作用領域を予測するためのフレームワークであるManipGPTを紹介する。
我々は、シミュレートされた9.9kの画像と実際の画像のデータセットを作成し、シミュレートとリアルのギャップを埋めた。
我々は,ロボット操作のシナリオに対して,モデルのコンテキスト内セグメンテーション機能を適用することにより,部分レベルの割当セグメンテーションを大幅に改善した。
論文 参考訳(メタデータ) (2024-12-13T11:22:01Z) - AugInsert: Learning Robust Visual-Force Policies via Data Augmentation for Object Assembly Tasks [7.631503105866245]
本稿では,高精度オブジェクト集合タスクの文脈における堅牢な視覚力ポリシーの学習に主眼を置いている。
我々は,オンラインデータ拡張を通じて人間による実演を拡大することにより,限られた専門家データに基づいて多感覚入力によるコンタクトリッチな操作ポリシーを学習することを目指している。
論文 参考訳(メタデータ) (2024-10-19T04:19:52Z) - Articulated Object Manipulation using Online Axis Estimation with SAM2-Based Tracking [59.87033229815062]
アーティキュレートされたオブジェクト操作は、オブジェクトの軸を慎重に考慮する必要がある、正確なオブジェクトインタラクションを必要とする。
従来の研究では、対話的な知覚を用いて関節のある物体を操作するが、通常、オープンループのアプローチは相互作用のダイナミクスを見渡すことに悩まされる。
本稿では,対話的知覚と3次元点雲からのオンライン軸推定を統合したクローズドループパイプラインを提案する。
論文 参考訳(メタデータ) (2024-09-24T17:59:56Z) - Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - InterTracker: Discovering and Tracking General Objects Interacting with
Hands in the Wild [40.489171608114574]
既存の方法は相互作用する物体を見つけるためにフレームベースの検出器に依存している。
本稿では,対話オブジェクトの追跡に手動オブジェクトのインタラクションを活用することを提案する。
提案手法は最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2023-08-06T09:09:17Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Scene-Aware
Ambidextrous Bin Picking via Physics-based Metaverse Synthesis [72.85526892440251]
本稿では,物理に基づくメタバース合成により構築した大規模写真リアリスティックビンピックデータセットであるMetaGraspNetを紹介する。
提案データセットは,82種類の記事に対して217kのRGBD画像を含み,オブジェクト検出,アモーダル認識,キーポイント検出,操作順序,および並列ジャウと真空グリップパー用のアンビデクストグリップラベルの完全なアノテーションを備える。
また,2.3k以上の完全アノテートされた高品質なRGBD画像からなる実際のデータセットを5段階の難易度と,異なるオブジェクトおよびレイアウト特性を評価するための見えないオブジェクトセットに分割する。
論文 参考訳(メタデータ) (2022-08-08T08:15:34Z) - Learn to Predict How Humans Manipulate Large-sized Objects from
Interactive Motions [82.90906153293585]
本稿では,動きデータと動的記述子を融合させるグラフニューラルネットワークHO-GCNを提案する。
動的記述子を消費するネットワークは、最先端の予測結果が得られ、未確認オブジェクトへのネットワークの一般化に役立つことを示す。
論文 参考訳(メタデータ) (2022-06-25T09:55:39Z) - Object Manipulation via Visual Target Localization [64.05939029132394]
オブジェクトを操作するための訓練エージェントは、多くの課題を提起します。
本研究では,対象物体を探索する環境を探索し,位置が特定されると3次元座標を計算し,対象物が見えない場合でも3次元位置を推定する手法を提案する。
評価の結果,同じ感覚スイートにアクセス可能なモデルに比べて,成功率が3倍に向上したことが示された。
論文 参考訳(メタデータ) (2022-03-15T17:59:01Z) - Sim2Real Object-Centric Keypoint Detection and Description [40.58367357980036]
キーポイントの検出と記述はコンピュータビジョンにおいて中心的な役割を果たす。
対象中心の定式化を提案し、各関心点が属する対象をさらに特定する必要がある。
我々はシミュレーションで訓練されたモデルを現実のアプリケーションに一般化できるsim2realコントラスト学習機構を開発した。
論文 参考訳(メタデータ) (2022-02-01T15:00:20Z) - VAT-Mart: Learning Visual Action Trajectory Proposals for Manipulating
3D ARTiculated Objects [19.296344218177534]
3次元の明瞭な物体の空間は、その無数の意味圏、多様な形状幾何学、複雑な部分関数に非常に豊富である。
それまでの作業は, 関節パラメータを推定し, 3次元関節物体の視覚的表現として機能する, 抽象運動学的な構造が主流であった。
本研究では,物体中心の動作可能な視覚的先入観を,知覚システムが運動構造推定よりも動作可能なガイダンスを出力する,新しい知覚-相互作用ハンドシェイキングポイントとして提案する。
論文 参考訳(メタデータ) (2021-06-28T07:47:31Z) - Hindsight for Foresight: Unsupervised Structured Dynamics Models from
Physical Interaction [24.72947291987545]
エージェントが世界と対話することを学ぶための鍵となる課題は、オブジェクトの物理的性質を推論することである。
本研究では,ラベルのない3次元点群と画像から直接,ロボットのインタラクションのダイナミクスをモデル化するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-02T11:04:49Z) - Measuring Generalisation to Unseen Viewpoints, Articulations, Shapes and
Objects for 3D Hand Pose Estimation under Hand-Object Interaction [137.28465645405655]
HANDS'19は、現在の3Dハンドポーズ推定器(HPE)がトレーニングセットのポーズを補間し、外挿する能力を評価するための課題である。
本研究では,最先端手法の精度が低下し,トレーニングセットから外れたポーズでほとんど失敗することを示す。
論文 参考訳(メタデータ) (2020-03-30T19:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。