論文の概要: GenDP: 3D Semantic Fields for Category-Level Generalizable Diffusion Policy
- arxiv url: http://arxiv.org/abs/2410.17488v1
- Date: Wed, 23 Oct 2024 00:51:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:56:32.415657
- Title: GenDP: 3D Semantic Fields for Category-Level Generalizable Diffusion Policy
- Title(参考訳): GenDP:カテゴリーレベル一般拡散政策のための3次元セマンティックフィールド
- Authors: Yixuan Wang, Guang Yin, Binghao Huang, Tarik Kelestemur, Jiuguang Wang, Yunzhu Li,
- Abstract要約: 本稿では,3次元のセマンティックフィールドを介し,空間的・意味的な明示的な情報を含む新しいフレームワークを提案する。
本手法は,未確認インスタンスにおける拡散政策の平均成功率を20%から93%に引き上げることにより,その効果を実証する。
- 参考スコア(独自算出の注目度): 11.842823381755467
- License:
- Abstract: Diffusion-based policies have shown remarkable capability in executing complex robotic manipulation tasks but lack explicit characterization of geometry and semantics, which often limits their ability to generalize to unseen objects and layouts. To enhance the generalization capabilities of Diffusion Policy, we introduce a novel framework that incorporates explicit spatial and semantic information via 3D semantic fields. We generate 3D descriptor fields from multi-view RGBD observations with large foundational vision models, then compare these descriptor fields against reference descriptors to obtain semantic fields. The proposed method explicitly considers geometry and semantics, enabling strong generalization capabilities in tasks requiring category-level generalization, resolving geometric ambiguities, and attention to subtle geometric details. We evaluate our method across eight tasks involving articulated objects and instances with varying shapes and textures from multiple object categories. Our method demonstrates its effectiveness by increasing Diffusion Policy's average success rate on unseen instances from 20% to 93%. Additionally, we provide a detailed analysis and visualization to interpret the sources of performance gain and explain how our method can generalize to novel instances.
- Abstract(参考訳): 拡散ベースのポリシーは複雑なロボット操作タスクを実行する際、顕著な能力を示してきたが、幾何学や意味論の明確な特徴は欠如しており、しばしば目に見えないオブジェクトやレイアウトに一般化する能力を制限している。
本研究では,拡散政策の一般化能力を高めるために,空間的・意味的な明示的な情報を3次元のセマンティックフィールドを通じて組み込んだ新しいフレームワークを提案する。
我々は,多視点RGBD観測から3次元記述子フィールドを生成し,これらの記述子フィールドと参照記述子を比較して意味的フィールドを得る。
提案手法は幾何学と意味論を明確に考慮し,カテゴリレベルの一般化,幾何学的曖昧さの解消,微妙な幾何学的詳細への注意を必要とするタスクにおいて,強力な一般化機能を実現する。
本手法は,複数の対象カテゴリの形状やテクスチャの異なる,明瞭なオブジェクトとインスタンスを含む8つのタスクにまたがって評価する。
本手法は,未確認インスタンスにおける拡散政策の平均成功率を20%から93%に引き上げることにより,その効果を実証する。
さらに,パフォーマンス向上の源泉を解析し,新しいインスタンスにどのように一般化できるかを解説するために,詳細な解析と可視化を行う。
関連論文リスト
- MARS: Mesh AutoRegressive Model for 3D Shape Detailization [85.95365919236212]
3次元形状詳細化のための新しいアプローチであるMARSを紹介する。
本稿では,次のLODトークン予測により,そのような潜在表現を生成するメッシュ自己回帰モデルを提案する。
挑戦的な3次元形状Detailizationベンチマークで行った実験により,提案したMARSモデルが最先端の性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-17T03:12:16Z) - Geometry-aware RL for Manipulation of Varying Shapes and Deformable Objects [14.481805160449282]
様々な地形と変形可能な物体で物体を操作することは、ロボット工学における大きな課題である。
本研究では、より小さな部分グラフからなる不均一グラフのレンズを通してこの問題をフレーム化する。
本稿では,多種多様な物体の厳密な挿入を含む,新規で挑戦的な強化学習ベンチマークを提案する。
論文 参考訳(メタデータ) (2025-02-10T20:10:25Z) - GREAT: Geometry-Intention Collaborative Inference for Open-Vocabulary 3D Object Affordance Grounding [53.42728468191711]
Open-Vocabulary 3D object affordance groundingは、任意の命令で3Dオブジェクト上のアクション可能性の領域を予測することを目的としている。
GREAT (GeometRy-intEntion collAboraTive Inference) を提案する。
論文 参考訳(メタデータ) (2024-11-29T11:23:15Z) - Geometry Distributions [51.4061133324376]
本稿では,分布として幾何学をモデル化する新しい幾何学的データ表現を提案する。
提案手法では,新しいネットワークアーキテクチャを用いた拡散モデルを用いて表面点分布の学習を行う。
本研究では,多種多様な対象に対して質的かつ定量的に表現を評価し,その有効性を実証した。
論文 参考訳(メタデータ) (2024-11-25T04:06:48Z) - N2F2: Hierarchical Scene Understanding with Nested Neural Feature Fields [112.02885337510716]
Nested Neural Feature Fields (N2F2)は、階層的な監視を用いて単一機能フィールドを学習する新しいアプローチである。
画像空間の任意のスケールで意味的に意味のある画素群を提供するために、2次元クラス非依存セグメンテーションモデルを利用する。
オープンな3次元セグメンテーションやローカライゼーションといったタスクにおいて,最先端のフィールド蒸留法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-03-16T18:50:44Z) - Instance-aware 3D Semantic Segmentation powered by Shape Generators and
Classifiers [28.817905887080293]
本稿では,3次元セマンティックセグメンテーションのための新しいインスタンス認識手法を提案する。
本手法は,学習した特徴表現の一貫性を促進するために,インスタンスレベルでの幾何処理タスクを組み合わせる。
論文 参考訳(メタデータ) (2023-11-21T02:14:16Z) - Human as Points: Explicit Point-based 3D Human Reconstruction from Single-view RGB Images [71.91424164693422]
我々はHaPと呼ばれる明示的なポイントベース人間再構築フレームワークを導入する。
提案手法は,3次元幾何学空間における完全明示的な点雲推定,操作,生成,洗練が特徴である。
我々の結果は、完全に明示的で幾何学中心のアルゴリズム設計へのパラダイムのロールバックを示すかもしれない。
論文 参考訳(メタデータ) (2023-11-06T05:52:29Z) - Generative Category-Level Shape and Pose Estimation with Semantic
Primitives [27.692997522812615]
本稿では,1枚のRGB-D画像からカテゴリレベルのオブジェクト形状とポーズ推定を行う新しいフレームワークを提案する。
カテゴリ内変動に対処するために、様々な形状を統一された潜在空間にエンコードするセマンティックプリミティブ表現を採用する。
提案手法は,実世界のデータセットにおいて,SOTAのポーズ推定性能とより優れた一般化を実現する。
論文 参考訳(メタデータ) (2022-10-03T17:51:54Z) - Closed-Form Factorization of Latent Semantics in GANs [65.42778970898534]
画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。
本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。
本稿では,事前学習した重みを直接分解することで,潜在意味発見のためのクローズドフォーム因数分解アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-13T18:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。