論文の概要: GenDP: 3D Semantic Fields for Category-Level Generalizable Diffusion Policy
- arxiv url: http://arxiv.org/abs/2410.17488v1
- Date: Wed, 23 Oct 2024 00:51:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:56:32.415657
- Title: GenDP: 3D Semantic Fields for Category-Level Generalizable Diffusion Policy
- Title(参考訳): GenDP:カテゴリーレベル一般拡散政策のための3次元セマンティックフィールド
- Authors: Yixuan Wang, Guang Yin, Binghao Huang, Tarik Kelestemur, Jiuguang Wang, Yunzhu Li,
- Abstract要約: 本稿では,3次元のセマンティックフィールドを介し,空間的・意味的な明示的な情報を含む新しいフレームワークを提案する。
本手法は,未確認インスタンスにおける拡散政策の平均成功率を20%から93%に引き上げることにより,その効果を実証する。
- 参考スコア(独自算出の注目度): 11.842823381755467
- License:
- Abstract: Diffusion-based policies have shown remarkable capability in executing complex robotic manipulation tasks but lack explicit characterization of geometry and semantics, which often limits their ability to generalize to unseen objects and layouts. To enhance the generalization capabilities of Diffusion Policy, we introduce a novel framework that incorporates explicit spatial and semantic information via 3D semantic fields. We generate 3D descriptor fields from multi-view RGBD observations with large foundational vision models, then compare these descriptor fields against reference descriptors to obtain semantic fields. The proposed method explicitly considers geometry and semantics, enabling strong generalization capabilities in tasks requiring category-level generalization, resolving geometric ambiguities, and attention to subtle geometric details. We evaluate our method across eight tasks involving articulated objects and instances with varying shapes and textures from multiple object categories. Our method demonstrates its effectiveness by increasing Diffusion Policy's average success rate on unseen instances from 20% to 93%. Additionally, we provide a detailed analysis and visualization to interpret the sources of performance gain and explain how our method can generalize to novel instances.
- Abstract(参考訳): 拡散ベースのポリシーは複雑なロボット操作タスクを実行する際、顕著な能力を示してきたが、幾何学や意味論の明確な特徴は欠如しており、しばしば目に見えないオブジェクトやレイアウトに一般化する能力を制限している。
本研究では,拡散政策の一般化能力を高めるために,空間的・意味的な明示的な情報を3次元のセマンティックフィールドを通じて組み込んだ新しいフレームワークを提案する。
我々は,多視点RGBD観測から3次元記述子フィールドを生成し,これらの記述子フィールドと参照記述子を比較して意味的フィールドを得る。
提案手法は幾何学と意味論を明確に考慮し,カテゴリレベルの一般化,幾何学的曖昧さの解消,微妙な幾何学的詳細への注意を必要とするタスクにおいて,強力な一般化機能を実現する。
本手法は,複数の対象カテゴリの形状やテクスチャの異なる,明瞭なオブジェクトとインスタンスを含む8つのタスクにまたがって評価する。
本手法は,未確認インスタンスにおける拡散政策の平均成功率を20%から93%に引き上げることにより,その効果を実証する。
さらに,パフォーマンス向上の源泉を解析し,新しいインスタンスにどのように一般化できるかを解説するために,詳細な解析と可視化を行う。
関連論文リスト
- GOV-NeSF: Generalizable Open-Vocabulary Neural Semantic Fields [50.68719394443926]
Generalizable Open-Vocabulary Neural Semantic Fields (GOV-NeSF)は、オープン語彙意味論による3Dシーンの一般化可能な暗黙的表現を提供する新しいアプローチである。
GOV-NeSFは2次元および3次元のオープン語彙セマンティックセマンティックセグメンテーションにおいて最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-04-01T05:19:50Z) - N2F2: Hierarchical Scene Understanding with Nested Neural Feature Fields [112.02885337510716]
Nested Neural Feature Fields (N2F2)は、階層的な監視を用いて単一機能フィールドを学習する新しいアプローチである。
画像空間の任意のスケールで意味的に意味のある画素群を提供するために、2次元クラス非依存セグメンテーションモデルを利用する。
オープンな3次元セグメンテーションやローカライゼーションといったタスクにおいて,最先端のフィールド蒸留法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-03-16T18:50:44Z) - Instance-aware 3D Semantic Segmentation powered by Shape Generators and
Classifiers [28.817905887080293]
本稿では,3次元セマンティックセグメンテーションのための新しいインスタンス認識手法を提案する。
本手法は,学習した特徴表現の一貫性を促進するために,インスタンスレベルでの幾何処理タスクを組み合わせる。
論文 参考訳(メタデータ) (2023-11-21T02:14:16Z) - Human as Points: Explicit Point-based 3D Human Reconstruction from
Single-view RGB Images [78.56114271538061]
我々はHaPと呼ばれる明示的なポイントベース人間再構築フレームワークを導入する。
提案手法は,3次元幾何学空間における完全明示的な点雲推定,操作,生成,洗練が特徴である。
我々の結果は、完全に明示的で幾何学中心のアルゴリズム設計へのパラダイムのロールバックを示すかもしれない。
論文 参考訳(メタデータ) (2023-11-06T05:52:29Z) - Neural Vector Fields: Implicit Representation by Explicit Learning [63.337294707047036]
ニューラルベクトル場 (Neural Vector Fields, NVF) という新しい3次元表現法を提案する。
メッシュを直接操作するための明示的な学習プロセスを採用するだけでなく、符号なし距離関数(UDF)の暗黙的な表現も採用している。
提案手法は,まず表面への変位クエリを予測し,テキスト再構成として形状をモデル化する。
論文 参考訳(メタデータ) (2023-03-08T02:36:09Z) - Generative Category-Level Shape and Pose Estimation with Semantic
Primitives [27.692997522812615]
本稿では,1枚のRGB-D画像からカテゴリレベルのオブジェクト形状とポーズ推定を行う新しいフレームワークを提案する。
カテゴリ内変動に対処するために、様々な形状を統一された潜在空間にエンコードするセマンティックプリミティブ表現を採用する。
提案手法は,実世界のデータセットにおいて,SOTAのポーズ推定性能とより優れた一般化を実現する。
論文 参考訳(メタデータ) (2022-10-03T17:51:54Z) - SemAffiNet: Semantic-Affine Transformation for Point Cloud Segmentation [94.11915008006483]
ポイントクラウドセマンティックセグメンテーションのためのSemAffiNetを提案する。
我々はScanNetV2とNYUv2データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-05-26T17:00:23Z) - High-dimensional distributed semantic spaces for utterances [0.2907403645801429]
本稿では,発話とテキストレベルデータの高次元表現モデルについて述べる。
言語情報を表現する数学的原理と行動学的に妥当なアプローチに基づいている。
本論文は,固定次元の共通積分フレームワークにおいて,実装モデルが言語的特徴を広範囲に表すことができるかを示す。
論文 参考訳(メタデータ) (2021-04-01T12:09:47Z) - Closed-Form Factorization of Latent Semantics in GANs [65.42778970898534]
画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。
本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。
本稿では,事前学習した重みを直接分解することで,潜在意味発見のためのクローズドフォーム因数分解アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-13T18:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。