Fugu-MT 論文翻訳(概要): GenDP: 3D Semantic Fields for Category-Level Generalizable Diffusion Policy

論文の概要: GenDP: 3D Semantic Fields for Category-Level Generalizable Diffusion Policy

arxiv url: http://arxiv.org/abs/2410.17488v1
Date: Wed, 23 Oct 2024 00:51:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:39.280982
Title: GenDP: 3D Semantic Fields for Category-Level Generalizable Diffusion Policy
Title（参考訳）: GenDP:カテゴリーレベル一般拡散政策のための3次元セマンティックフィールド
Authors: Yixuan Wang, Guang Yin, Binghao Huang, Tarik Kelestemur, Jiuguang Wang, Yunzhu Li,
Abstract要約: 本稿では,3次元のセマンティックフィールドを介し,空間的・意味的な明示的な情報を含む新しいフレームワークを提案する。本手法は,未確認インスタンスにおける拡散政策の平均成功率を20%から93%に引き上げることにより,その効果を実証する。
参考スコア（独自算出の注目度）: 11.842823381755467
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion-based policies have shown remarkable capability in executing complex robotic manipulation tasks but lack explicit characterization of geometry and semantics, which often limits their ability to generalize to unseen objects and layouts. To enhance the generalization capabilities of Diffusion Policy, we introduce a novel framework that incorporates explicit spatial and semantic information via 3D semantic fields. We generate 3D descriptor fields from multi-view RGBD observations with large foundational vision models, then compare these descriptor fields against reference descriptors to obtain semantic fields. The proposed method explicitly considers geometry and semantics, enabling strong generalization capabilities in tasks requiring category-level generalization, resolving geometric ambiguities, and attention to subtle geometric details. We evaluate our method across eight tasks involving articulated objects and instances with varying shapes and textures from multiple object categories. Our method demonstrates its effectiveness by increasing Diffusion Policy's average success rate on unseen instances from 20% to 93%. Additionally, we provide a detailed analysis and visualization to interpret the sources of performance gain and explain how our method can generalize to novel instances.
Abstract（参考訳）: 拡散ベースのポリシーは複雑なロボット操作タスクを実行する際、顕著な能力を示してきたが、幾何学や意味論の明確な特徴は欠如しており、しばしば目に見えないオブジェクトやレイアウトに一般化する能力を制限している。本研究では,拡散政策の一般化能力を高めるために,空間的・意味的な明示的な情報を3次元のセマンティックフィールドを通じて組み込んだ新しいフレームワークを提案する。我々は,多視点RGBD観測から3次元記述子フィールドを生成し,これらの記述子フィールドと参照記述子を比較して意味的フィールドを得る。提案手法は幾何学と意味論を明確に考慮し,カテゴリレベルの一般化,幾何学的曖昧さの解消,微妙な幾何学的詳細への注意を必要とするタスクにおいて,強力な一般化機能を実現する。本手法は,複数の対象カテゴリの形状やテクスチャの異なる,明瞭なオブジェクトとインスタンスを含む8つのタスクにまたがって評価する。本手法は,未確認インスタンスにおける拡散政策の平均成功率を20%から93%に引き上げることにより,その効果を実証する。さらに,パフォーマンス向上の源泉を解析し,新しいインスタンスにどのように一般化できるかを解説するために,詳細な解析と可視化を行う。

関連論文リスト

IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文参考訳（メタデータ） (2025-04-09T12:36:48Z)
Geometry-aware RL for Manipulation of Varying Shapes and Deformable Objects [14.481805160449282]
様々な地形と変形可能な物体で物体を操作することは、ロボット工学における大きな課題である。我々は、より小さな部分グラフからなる不均一グラフのレンズを通してこの問題をフレーム化する。本稿では,多種多様な物体の厳密な挿入を含む,新規で挑戦的な強化学習ベンチマークを提案する。
論文参考訳（メタデータ） (2025-02-10T20:10:25Z)
GREAT: Geometry-Intention Collaborative Inference for Open-Vocabulary 3D Object Affordance Grounding [53.42728468191711]
Open-Vocabulary 3D object affordance groundingは、任意の命令で3Dオブジェクト上のアクション可能性の領域を予測することを目的としている。 GREAT (GeometRy-intEntion collAboraTive Inference) を提案する。
論文参考訳（メタデータ） (2024-11-29T11:23:15Z)
Geometry Distributions [51.4061133324376]
本稿では,分布として幾何学をモデル化する新しい幾何学的データ表現を提案する。提案手法では,新しいネットワークアーキテクチャを用いた拡散モデルを用いて表面点分布の学習を行う。本研究では,多種多様な対象に対して質的かつ定量的に表現を評価し,その有効性を実証した。
論文参考訳（メタデータ） (2024-11-25T04:06:48Z)
Persistent Topological Features in Large Language Models [0.6597195879147556]
トポロジカルな特徴である$p$次元の穴が層全体に持続し、進化していくかを測定するトポロジカル記述子を導入する。このことは、プロンプトがどのように再配置され、それらの相対的な位置が表現空間で変化するかという統計的視点を与える。ショーケースアプリケーションとして、レイヤプルーニングの基準を確立するためにzigzag Persistenceを使用し、最先端の手法に匹敵する結果を得る。
論文参考訳（メタデータ） (2024-10-14T19:46:23Z)
GOV-NeSF: Generalizable Open-Vocabulary Neural Semantic Fields [50.68719394443926]
Generalizable Open-Vocabulary Neural Semantic Fields (GOV-NeSF)は、オープン語彙意味論による3Dシーンの一般化可能な暗黙的表現を提供する新しいアプローチである。 GOV-NeSFは2次元および3次元のオープン語彙セマンティックセマンティックセグメンテーションにおいて最先端のパフォーマンスを示す。
論文参考訳（メタデータ） (2024-04-01T05:19:50Z)
N2F2: Hierarchical Scene Understanding with Nested Neural Feature Fields [112.02885337510716]
Nested Neural Feature Fields (N2F2)は、階層的な監視を用いて単一機能フィールドを学習する新しいアプローチである。画像空間の任意のスケールで意味的に意味のある画素群を提供するために、2次元クラス非依存セグメンテーションモデルを利用する。オープンな3次元セグメンテーションやローカライゼーションといったタスクにおいて,最先端のフィールド蒸留法よりも優れた性能を発揮する。
論文参考訳（メタデータ） (2024-03-16T18:50:44Z)
Instance-aware 3D Semantic Segmentation powered by Shape Generators and Classifiers [28.817905887080293]
本稿では,3次元セマンティックセグメンテーションのための新しいインスタンス認識手法を提案する。本手法は,学習した特徴表現の一貫性を促進するために,インスタンスレベルでの幾何処理タスクを組み合わせる。
論文参考訳（メタデータ） (2023-11-21T02:14:16Z)
Human as Points: Explicit Point-based 3D Human Reconstruction from Single-view RGB Images [78.56114271538061]
我々はHaPと呼ばれる明示的なポイントベース人間再構築フレームワークを導入する。提案手法は,3次元幾何学空間における完全明示的な点雲推定,操作,生成,洗練が特徴である。我々の結果は、完全に明示的で幾何学中心のアルゴリズム設計へのパラダイムのロールバックを示すかもしれない。
論文参考訳（メタデータ） (2023-11-06T05:52:29Z)
Neural Vector Fields: Implicit Representation by Explicit Learning [63.337294707047036]
ニューラルベクトル場 (Neural Vector Fields, NVF) という新しい3次元表現法を提案する。メッシュを直接操作するための明示的な学習プロセスを採用するだけでなく、符号なし距離関数(UDF)の暗黙的な表現も採用している。提案手法は,まず表面への変位クエリを予測し,テキスト再構成として形状をモデル化する。
論文参考訳（メタデータ） (2023-03-08T02:36:09Z)
Generative Category-Level Shape and Pose Estimation with Semantic Primitives [27.692997522812615]
本稿では,1枚のRGB-D画像からカテゴリレベルのオブジェクト形状とポーズ推定を行う新しいフレームワークを提案する。カテゴリ内変動に対処するために、様々な形状を統一された潜在空間にエンコードするセマンティックプリミティブ表現を採用する。提案手法は,実世界のデータセットにおいて,SOTAのポーズ推定性能とより優れた一般化を実現する。
論文参考訳（メタデータ） (2022-10-03T17:51:54Z)
High-dimensional distributed semantic spaces for utterances [0.2907403645801429]
本稿では,発話とテキストレベルデータの高次元表現モデルについて述べる。言語情報を表現する数学的原理と行動学的に妥当なアプローチに基づいている。本論文は,固定次元の共通積分フレームワークにおいて,実装モデルが言語的特徴を広範囲に表すことができるかを示す。
論文参考訳（メタデータ） (2021-04-01T12:09:47Z)
Closed-Form Factorization of Latent Semantics in GANs [65.42778970898534]
画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。本稿では,事前学習した重みを直接分解することで,潜在意味発見のためのクローズドフォーム因数分解アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-07-13T18:05:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。