論文の概要: 3DAffordSplat: Efficient Affordance Reasoning with 3D Gaussians
- arxiv url: http://arxiv.org/abs/2504.11218v2
- Date: Wed, 16 Apr 2025 05:03:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 11:15:11.725955
- Title: 3DAffordSplat: Efficient Affordance Reasoning with 3D Gaussians
- Title(参考訳): 3DAffordSplat: 3Dガウシアンとの効果的な交流推論
- Authors: Zeming Wei, Junyi Lin, Yang Liu, Weixing Chen, Jingzhou Luo, Guanbin Li, Liang Lin,
- Abstract要約: 人間の指示を3Dオブジェクトの機能領域に関連付けるためには,3D割当推論が不可欠である。
3DAffordSplatは3DGSベースの価格推論に適した,最初の大規模マルチモーダルデータセットである。
AffordSplatNetは,3DGS表現を用いた割当推論に特化して設計された新しいモデルである。
- 参考スコア(独自算出の注目度): 82.67236400004826
- License:
- Abstract: 3D affordance reasoning is essential in associating human instructions with the functional regions of 3D objects, facilitating precise, task-oriented manipulations in embodied AI. However, current methods, which predominantly depend on sparse 3D point clouds, exhibit limited generalizability and robustness due to their sensitivity to coordinate variations and the inherent sparsity of the data. By contrast, 3D Gaussian Splatting (3DGS) delivers high-fidelity, real-time rendering with minimal computational overhead by representing scenes as dense, continuous distributions. This positions 3DGS as a highly effective approach for capturing fine-grained affordance details and improving recognition accuracy. Nevertheless, its full potential remains largely untapped due to the absence of large-scale, 3DGS-specific affordance datasets. To overcome these limitations, we present 3DAffordSplat, the first large-scale, multi-modal dataset tailored for 3DGS-based affordance reasoning. This dataset includes 23,677 Gaussian instances, 8,354 point cloud instances, and 6,631 manually annotated affordance labels, encompassing 21 object categories and 18 affordance types. Building upon this dataset, we introduce AffordSplatNet, a novel model specifically designed for affordance reasoning using 3DGS representations. AffordSplatNet features an innovative cross-modal structure alignment module that exploits structural consistency priors to align 3D point cloud and 3DGS representations, resulting in enhanced affordance recognition accuracy. Extensive experiments demonstrate that the 3DAffordSplat dataset significantly advances affordance learning within the 3DGS domain, while AffordSplatNet consistently outperforms existing methods across both seen and unseen settings, highlighting its robust generalization capabilities.
- Abstract(参考訳): 人間の指示と3Dオブジェクトの機能領域を関連付けるためには,3D割当推論が不可欠である。
しかし、現在の手法は、主に3次元点雲に依存するが、データの変動や固有空間の調整に敏感なため、限定的な一般化性とロバスト性を示す。
対照的に、3D Gaussian Splatting (3DGS)は、シーンを密度が高く連続的な分布として表現することで、計算オーバーヘッドを最小限に抑えた高忠実でリアルタイムなレンダリングを提供する。
これにより3DGSは細粒度細粒度を捕捉し、認識精度を向上させるための極めて効果的なアプローチとして位置づけられる。
しかし、大規模で3DGS固有の価格データセットがないため、その潜在能力は依然としてほとんど失われていない。
これらの制限を克服するために、3DAffordSplatは、3DGSベースの価格推論に適した、最初の大規模マルチモーダルデータセットである。
このデータセットには、23,677のガウスインスタンス、8,354のポイントクラウドインスタンス、6,631の手動アノテートラベルがあり、21のオブジェクトカテゴリと18のアノテートタイプが含まれている。
このデータセット上に構築されたAffordSplatNetは,3DGS表現を用いた価格推論に特化して設計された新しいモデルである。
AffordSplatNetは、3Dポイントクラウドと3DGS表現をアライメントするために、構造的な一貫性を利用する革新的なクロスモーダル構造アライメントモジュールを備えている。
大規模な実験では、3DAffordSplatデータセットが3DGSドメイン内での余剰学習を著しく向上する一方、AffordSplatNetは、目に見えるものと見えない設定の両方で既存のメソッドを一貫して上回り、堅牢な一般化能力を強調している。
関連論文リスト
- GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency [50.11520458252128]
既存の3Dアベイランス学習手法は、注釈付きデータに制限があるため、一般化と堅牢性に苦慮している。
本稿では,大規模事前学習型2Dモデルを活用することで,3次元アベイランス学習の一般化と堅牢性を高めるための新しいフレームワークであるGEALを提案する。
GEALは、既存のメソッドと、新しいオブジェクトカテゴリ、および破損したデータにおいて、一貫して優れています。
論文 参考訳(メタデータ) (2024-12-12T17:59:03Z) - Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。
我々は、FreeGSが複雑なデータ前処理作業の負荷を回避しつつ、最先端のメソッドと互換性があることを示す。
論文 参考訳(メタデータ) (2024-11-29T08:52:32Z) - Beyond Gaussians: Fast and High-Fidelity 3D Splatting with Linear Kernels [51.08794269211701]
本稿では,ガウスカーネルを線形カーネルに置き換えて,よりシャープで高精度な結果を得る3Dリニアスティング(DLS)を提案する。
3DLSは、最先端の忠実さと正確さを示し、ベースライン3DGSよりも30%のFPS改善を実現している。
論文 参考訳(メタデータ) (2024-11-19T11:59:54Z) - ShapeSplat: A Large-scale Dataset of Gaussian Splats and Their Self-Supervised Pretraining [104.34751911174196]
ShapeNetとModelNetを用いた大規模3DGSデータセットを構築した。
データセットのShapeSplatは、87のユニークなカテゴリから65Kのオブジェクトで構成されています。
textbftextitGaussian-MAEを導入し、ガウスパラメータからの表現学習の独特な利点を強調した。
論文 参考訳(メタデータ) (2024-08-20T14:49:14Z) - CLIP-GS: CLIP-Informed Gaussian Splatting for Real-time and View-consistent 3D Semantic Understanding [32.76277160013881]
コントラスト言語画像事前学習(CLIP)のセマンティクスをガウススプラッティングに統合するCLIP-GSを提案する。
SACはオブジェクト内の固有の統一意味論を利用して、3Dガウスのコンパクトで効果的な意味表現を学ぶ。
また,3次元モデルから得られた多視点一貫性を利用して,3次元コヒーレント自己学習(3DCS)戦略を導入する。
論文 参考訳(メタデータ) (2024-04-22T15:01:32Z) - Structure Aware and Class Balanced 3D Object Detection on nuScenes
Dataset [0.0]
NuTonomyのnuScenesデータセットは、KITTIのような一般的なデータセットを大きく拡張している。
このモデルの局所化精度は、ダウンスケールされた特徴写像における空間情報の損失に影響される。
本稿では,3次元点雲の構造情報をフル活用した補助ネットワークを設計することで,CBGSモデルの性能を向上させることを提案する。
論文 参考訳(メタデータ) (2022-05-25T06:18:49Z) - Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D
Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。
既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。
結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文 参考訳(メタデータ) (2020-04-07T20:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。