論文の概要: Two by Two: Learning Multi-Task Pairwise Objects Assembly for Generalizable Robot Manipulation
- arxiv url: http://arxiv.org/abs/2504.06961v1
- Date: Wed, 09 Apr 2025 15:12:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:03:48.960652
- Title: Two by Two: Learning Multi-Task Pairwise Objects Assembly for Generalizable Robot Manipulation
- Title(参考訳): 2対2:汎用ロボットマニピュレーションのためのマルチタスクペアワイズオブジェクトアセンブリの学習
- Authors: Yu Qi, Yuanchen Ju, Tianming Wei, Chi Chu, Lawson L. S. Wong, Huazhe Xu,
- Abstract要約: 既存のベンチマークとデータセットは、主に幾何学的断片や工場部品の組み立てに重点を置いている。
2BY2は、日々のペア・オブジェクト・アセンブリのための大規模アノテート・データセットである。
組立制約に対する同変特性を持つ2段階のSE(3)ポーズ推定法を提案する。
- 参考スコア(独自算出の注目度): 29.02679318985968
- License:
- Abstract: 3D assembly tasks, such as furniture assembly and component fitting, play a crucial role in daily life and represent essential capabilities for future home robots. Existing benchmarks and datasets predominantly focus on assembling geometric fragments or factory parts, which fall short in addressing the complexities of everyday object interactions and assemblies. To bridge this gap, we present 2BY2, a large-scale annotated dataset for daily pairwise objects assembly, covering 18 fine-grained tasks that reflect real-life scenarios, such as plugging into sockets, arranging flowers in vases, and inserting bread into toasters. 2BY2 dataset includes 1,034 instances and 517 pairwise objects with pose and symmetry annotations, requiring approaches that align geometric shapes while accounting for functional and spatial relationships between objects. Leveraging the 2BY2 dataset, we propose a two-step SE(3) pose estimation method with equivariant features for assembly constraints. Compared to previous shape assembly methods, our approach achieves state-of-the-art performance across all 18 tasks in the 2BY2 dataset. Additionally, robot experiments further validate the reliability and generalization ability of our method for complex 3D assembly tasks.
- Abstract(参考訳): 家具組立や部品組立といった3D組立作業は日常生活において重要な役割を担い、将来のホームロボットにとって不可欠な機能である。
既存のベンチマークとデータセットは主に、幾何学的断片や工場部品の組み立てに重点を置いている。
このギャップを埋めるために、我々は2BY2という大規模なアノテートデータセットを提案し、ソケットに差し込む、花瓶に花を配置する、トースターにパンを挿入するといった現実のシナリオを反映した18のきめ細かいタスクを網羅している。
2BY2データセットには、1034のインスタンスと517のペアワイズオブジェクトが含まれており、オブジェクト間の機能的および空間的関係を考慮しつつ幾何学的形状を整列するアプローチが必要である。
2BY2データセットを活用することで,組立制約に対する同変特徴を持つ2段階のSE(3)ポーズ推定手法を提案する。
従来の形状組立法と比較して,本手法は2BY2データセットの18タスクすべてに対して,最先端の性能を実現する。
さらに, ロボット実験により, 複雑な3次元組立作業における手法の信頼性と一般化能力について検証した。
関連論文リスト
- Betsu-Betsu: Multi-View Separable 3D Reconstruction of Two Interacting Objects [67.96148051569993]
本稿では, 近接相互作用中の2つの物体の形状と外観を再構成し, 両者を3次元で解離させるニューロ・インシシシット法を提案する。
フレームワークはエンドツーエンドのトレーニングが可能で、新しいアルファブレンディング正規化を使用して管理されている。
我々は,人間と物体の密接な相互作用からなる新しいデータセットを導入するとともに,武道を行う人間の2つの場面について評価する。
論文 参考訳(メタデータ) (2025-02-19T18:59:56Z) - Holistic Understanding of 3D Scenes as Universal Scene Description [56.69740649781989]
3Dシーン理解は、コンピュータビジョンにおける長年の課題であり、混合現実、ウェアラブルコンピューティング、そして具体化されたAIを実現する上で重要な要素である。
高品質な手動アノテーションを備えたUniversal Scene Description (USD)フォーマットで、専門家がキュレートしたデータセットを導入する。
広範かつ高品質なアノテーションにより、このデータは総合的な3Dシーン理解モデルの基礎を提供する。
論文 参考訳(メタデータ) (2024-12-02T11:33:55Z) - GREAT: Geometry-Intention Collaborative Inference for Open-Vocabulary 3D Object Affordance Grounding [53.42728468191711]
Open-Vocabulary 3D object affordance groundingは、任意の命令で3Dオブジェクト上のアクション可能性の領域を予測することを目的としている。
GREAT (GeometRy-intEntion collAboraTive Inference) を提案する。
論文 参考訳(メタデータ) (2024-11-29T11:23:15Z) - OAKINK2: A Dataset of Bimanual Hands-Object Manipulation in Complex Task Completion [39.14950571922401]
OAKINK2は、複雑な日常活動のための双方向オブジェクト操作タスクのデータセットである。
操作タスクを整理する3つのレベルの抽象化が導入されている。
OakINK2データセットは、人体、手、さまざまな相互作用するオブジェクトに対して、マルチビューの画像ストリームと正確なポーズアノテーションを提供する。
論文 参考訳(メタデータ) (2024-03-28T13:47:19Z) - SM$^3$: Self-Supervised Multi-task Modeling with Multi-view 2D Images
for Articulated Objects [24.737865259695006]
そこで本研究では, SM$3$と呼ばれる自己教師型相互作用認識手法を提案する。
取得した2次元画像から3次元の幾何学とテクスチャを構築することで、SM$3$は可動部と関節パラメータの統合最適化を実現する。
SM$3$は、様々なカテゴリやオブジェクトにわたる既存のベンチマークを上回り、実際のシナリオにおける適応性は、徹底的に検証されている。
論文 参考訳(メタデータ) (2024-01-17T11:15:09Z) - Contrastive Lift: 3D Object Instance Segmentation by Slow-Fast
Contrastive Fusion [110.84357383258818]
本稿では,2次元セグメントを3次元に上げ,ニューラルネットワーク表現を用いて融合させる新しい手法を提案する。
このアプローチの中核は、高速なクラスタリング目的関数であり、多数のオブジェクトを持つシーンにスケーラブルで適しています。
我々のアプローチは、ScanNet、Hypersim、Replicaのデータセットからの挑戦的なシーンにおいて、最先端の状況よりも優れています。
論文 参考訳(メタデータ) (2023-06-07T17:57:45Z) - Building Rearticulable Models for Arbitrary 3D Objects from 4D Point
Clouds [28.330364666426345]
任意の数の部品を含む日常的な人工物に対して再計算可能なモデルを構築する。
本手法では, 異なる対象部位, どの部位が他の部位に接続されているか, および各部位を接続する接合部の性質を同定する。
論文 参考訳(メタデータ) (2023-06-01T17:59:21Z) - Towards Robotic Assembly by Predicting Robust, Precise and Task-oriented
Grasps [17.07993278175686]
本稿では,3つのカスケードネットワークを学習することで,把握,精度,タスク性能を最適化する手法を提案する。
我々は,歯車をペグに挿入し,ブラケットをコーナーにアライメントし,形状をスロットに挿入する3つの一般的な組立作業のシミュレーションにおいて,本手法の評価を行った。
論文 参考訳(メタデータ) (2020-11-04T18:29:01Z) - The IKEA ASM Dataset: Understanding People Assembling Furniture through
Actions, Objects and Pose [108.21037046507483]
IKEA ASMは300万フレーム、マルチビュー、家具組み立てビデオデータセットで、深さ、原子活動、オブジェクトセグメンテーション、人間のポーズを含む。
我々は,この課題のあるデータセット上で,映像行動認識,オブジェクトセグメンテーション,人間のポーズ推定タスクの顕著な手法をベンチマークする。
このデータセットは、マルチモーダルデータとマルチビューデータを統合してこれらのタスクをよりよく実行する、全体論的手法の開発を可能にする。
論文 参考訳(メタデータ) (2020-07-01T11:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。