論文の概要: Learning Part-Aware Dense 3D Feature Field for Generalizable Articulated Object Manipulation
- arxiv url: http://arxiv.org/abs/2602.14193v1
- Date: Sun, 15 Feb 2026 15:39:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.688875
- Title: Learning Part-Aware Dense 3D Feature Field for Generalizable Articulated Object Manipulation
- Title(参考訳): 一般化可能なArticulated Object Manipulationのための部分認識3次元特徴場の学習
- Authors: Yue Chen, Muqing Jiang, Kaifeng Zheng, Jiaqi Liang, Chenrui Tie, Haoran Lu, Ruihai Wu, Hao Dong,
- Abstract要約: Part-Aware 3D Feature Field (PA3FF)は、一般化可能なオブジェクト操作のための部分認識を備えた、新しい密集した3D機能である。
本稿では,ロボット操作におけるサンプル効率の向上と一般化を目的とした模倣学習フレームワークであるPart-Aware Diffusion Policy (PADP)を紹介する。
- 参考スコア(独自算出の注目度): 24.835413020460866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Articulated object manipulation is essential for various real-world robotic tasks, yet generalizing across diverse objects remains a major challenge. A key to generalization lies in understanding functional parts (e.g., door handles and knobs), which indicate where and how to manipulate across diverse object categories and shapes. Previous works attempted to achieve generalization by introducing foundation features, while these features are mostly 2D-based and do not specifically consider functional parts. When lifting these 2D features to geometry-profound 3D space, challenges arise, such as long runtimes, multi-view inconsistencies, and low spatial resolution with insufficient geometric information. To address these issues, we propose Part-Aware 3D Feature Field (PA3FF), a novel dense 3D feature with part awareness for generalizable articulated object manipulation. PA3FF is trained by 3D part proposals from a large-scale labeled dataset, via a contrastive learning formulation. Given point clouds as input, PA3FF predicts a continuous 3D feature field in a feedforward manner, where the distance between point features reflects the proximity of functional parts: points with similar features are more likely to belong to the same part. Building on this feature, we introduce the Part-Aware Diffusion Policy (PADP), an imitation learning framework aimed at enhancing sample efficiency and generalization for robotic manipulation. We evaluate PADP on several simulated and real-world tasks, demonstrating that PA3FF consistently outperforms a range of 2D and 3D representations in manipulation scenarios, including CLIP, DINOv2, and Grounded-SAM. Beyond imitation learning, PA3FF enables diverse downstream methods, including correspondence learning and segmentation tasks, making it a versatile foundation for robotic manipulation. Project page: https://pa3ff.github.io
- Abstract(参考訳): 人工物体操作は様々な現実世界のロボット作業に不可欠であるが、多種多様な物体を対象とする一般化は依然として大きな課題である。
一般化の鍵は機能部分(例えばドアハンドルやノブ)を理解することである。
これまでは基礎的特徴を導入して一般化を図っていたが、これらの特徴の大部分は2Dベースであり、機能的な部分については特に考慮していない。
これらの2次元特徴を幾何学的に派生した3次元空間に持ち上げると、長いランタイム、複数ビューの不整合、幾何学的情報が不十分な低空間分解能といった課題が発生する。
これらの課題に対処するため, 一般化可能なオブジェクト操作のための高密度3D機能であるPart-Aware 3D Feature Field (PA3FF)を提案する。
PA3FFは、対照的な学習の定式化を通じて、大規模ラベル付きデータセットから3D部分の提案によってトレーニングされる。
入力として点雲が与えられた場合、PA3FFはフィードフォワード方式で連続した3次元特徴場を予測し、点特徴間の距離は機能部分の近接を反映する。
本稿では,ロボット操作における標本効率の向上と一般化を目的とした模擬学習フレームワークであるPart-Aware Diffusion Policy (PADP)を紹介する。
CLIP, DINOv2, Grounded-SAMなどの操作シナリオにおいて, PA3FFは連続的に2次元および3次元の表現に優れることを示した。
模倣学習以外にも、PA3FFは、対応学習やセグメンテーションタスクを含む様々な下流の手法を可能にし、ロボット操作のための汎用的な基盤となっている。
プロジェクトページ: https://pa3ff.github.io
関連論文リスト
- PARTFIELD: Learning 3D Feature Fields for Part Segmentation and Beyond [70.95930509071451]
PartFieldは、パートベースの3D機能を学ぶためのフィードフォワードアプローチである。
PartFieldは、他のクラスに依存しない部分分割方法よりも最大20%正確で、多くの場合、桁違いに高速です。
論文 参考訳(メタデータ) (2025-04-15T17:58:16Z) - IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。
マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。
次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文 参考訳(メタデータ) (2025-04-09T12:36:48Z) - 3D Part Segmentation via Geometric Aggregation of 2D Visual Features [57.20161517451834]
監督された3D部分分割モデルは、固定されたオブジェクトと部品のセットに合わせて調整されており、それらの転送可能性は、オープンセットの現実世界のシナリオに制限される。
近年、視覚言語モデル(VLM)を多視点レンダリングとテキストプロンプトを用いてオブジェクト部品の識別に活用する研究が進められている。
これらの制約に対処するために,視覚概念から抽出した意味論と3次元幾何学をブレンドし,対象部品を効果的に同定するCOPSを提案する。
論文 参考訳(メタデータ) (2024-12-05T15:27:58Z) - GREAT: Geometry-Intention Collaborative Inference for Open-Vocabulary 3D Object Affordance Grounding [53.42728468191711]
Open-Vocabulary 3D object affordance groundingは、任意の命令で3Dオブジェクト上のアクション可能性の領域を予測することを目的としている。
GREAT (GeometRy-intEntion collAboraTive Inference) を提案する。
論文 参考訳(メタデータ) (2024-11-29T11:23:15Z) - 3D Feature Distillation with Object-Centric Priors [14.808252840805475]
CLIPのような2Dビジョン言語モデルは、2Dイメージのオープン語彙グラウンドディングに優れた機能を備えているため、広く普及している。
最近の研究は、特徴蒸留によって2D CLIP機能を3Dに高めることを目的としているが、シーン固有のニューラルネットワークを学ぶか、室内のスキャンデータにフォーカスする。
提案手法は, 3次元CLIPの特徴を再構築し, 接地能力と空間的整合性を改善した。
論文 参考訳(メタデータ) (2024-06-26T20:16:49Z) - Reasoning3D -- Grounding and Reasoning in 3D: Fine-Grained Zero-Shot Open-Vocabulary 3D Reasoning Part Segmentation via Large Vision-Language Models [20.277479473218513]
オブジェクトの検索とローカライズのためのZero-Shot 3D Reasoningを提案する。
複雑なコマンドを理解し実行するためのシンプルなベースラインメソッドReasoning3Dを設計する。
Reasoning3Dは、暗黙のテキストクエリに基づいて、3Dオブジェクトの一部を効果的にローカライズし、ハイライトすることができることを示す。
論文 参考訳(メタデータ) (2024-05-29T17:56:07Z) - Unsupervised Learning of Visual 3D Keypoints for Control [104.92063943162896]
高次元画像からの感覚運動制御ポリシーの学習は、基礎となる視覚表現の品質に大きく依存する。
本稿では,画像から3次元幾何学的構造を直接教師なしで学習するフレームワークを提案する。
これらの発見された3Dキーポイントは、時間と3D空間の両方で一貫した方法で、ロボットの関節と物体の動きを有意義にキャプチャする傾向がある。
論文 参考訳(メタデータ) (2021-06-14T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。