論文の概要: Unlocking 3D Affordance Segmentation with 2D Semantic Knowledge
- arxiv url: http://arxiv.org/abs/2510.08316v1
- Date: Thu, 09 Oct 2025 15:01:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.152616
- Title: Unlocking 3D Affordance Segmentation with 2D Semantic Knowledge
- Title(参考訳): 2次元意味的知識を用いた3次元精度セグメントのアンロック
- Authors: Yu Huang, Zelin Peng, Changsong Wen, Xiaokang Yang, Wei Shen,
- Abstract要約: Affordance segmentationは、3Dオブジェクトを機能的に異なる部分にパースすることを目的としている。
我々は,3次元エンコーダを昇降した2次元意味論と整合させ,再現,親和性,多様性を共同で最適化し,意味的に整理された表現を得るための事前学習戦略であるCross-Modal Affinity Transfer (CMAT)を導入する。
さらに,マルチモーダルプロンプトとCMAT対応機能を統合し,高精度かつ迅速なセグメンテーションマップを生成するCAST (Cross-modal Affordance Transformer) を設計する。
- 参考スコア(独自算出の注目度): 45.19482892758984
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Affordance segmentation aims to parse 3D objects into functionally distinct parts, bridging recognition and interaction for applications in robotic manipulation, embodied AI, and AR. While recent studies leverage visual or textual prompts to guide this process, they often rely on point cloud encoders as generic feature extractors, overlooking the intrinsic challenges of 3D data such as sparsity, noise, and geometric ambiguity. As a result, 3D features learned in isolation frequently lack clear and semantically consistent functional boundaries. To address this bottleneck, we propose a semantic-grounded learning paradigm that transfers rich semantic knowledge from large-scale 2D Vision Foundation Models (VFMs) into the 3D domain. Specifically, We introduce Cross-Modal Affinity Transfer (CMAT), a pre-training strategy that aligns a 3D encoder with lifted 2D semantics and jointly optimizes reconstruction, affinity, and diversity to yield semantically organized representations. Building on this backbone, we further design the Cross-modal Affordance Segmentation Transformer (CAST), which integrates multi-modal prompts with CMAT-pretrained features to generate precise, prompt-aware segmentation maps. Extensive experiments on standard benchmarks demonstrate that our framework establishes new state-of-the-art results for 3D affordance segmentation.
- Abstract(参考訳): Affordance segmentationは、3Dオブジェクトを機能的に異なる部分にパースすることを目的としている。
最近の研究では、このプロセスを導くために視覚的またはテキスト的プロンプトを利用するが、しばしば点雲エンコーダを一般的な特徴抽出器として頼りにしており、空間性、ノイズ、幾何学的あいまいさといった3Dデータの本質的な課題を見下ろしている。
その結果、独立して学んだ3D機能は明確で意味的に一貫した機能境界を欠いている。
このボトルネックに対処するために,大規模2次元視覚基礎モデル(VFM)から3次元領域へリッチなセマンティック知識を伝達するセマンティックグラウンド学習パラダイムを提案する。
具体的には,3次元エンコーダを昇降した2次元セマンティクスと整列し,再構成,親和性,多様性を共同で最適化し,意味的に整理された表現を生成するための事前学習戦略であるCross-Modal Affinity Transfer (CMAT)を導入する。
このバックボーン上に構築されたCAST(Cross-modal Affordance Segmentation Transformer)は,マルチモーダルプロンプトとCMAT対応の機能を統合し,高精度かつ迅速なセグメンテーションマップを生成する。
標準ベンチマークの大規模な実験により、我々のフレームワークは3D割当セグメンテーションのための新しい最先端結果を確立していることが示された。
関連論文リスト
- SeqAffordSplat: Scene-level Sequential Affordance Reasoning on 3D Gaussian Splatting [85.87902260102652]
本稿では, 連続3次元ガウシアン・アフラマンス推論の課題について紹介する。
次に,SeqSplatNetを提案する。SqSplatNetは,命令を直接3Dアベイランスマスクのシーケンスにマッピングするエンドツーエンドフレームワークである。
本手法は,1段階のインタラクションから,シーンレベルでの複雑なシーケンシャルなタスクへの可利用性推論を効果的に向上させる。
論文 参考訳(メタデータ) (2025-07-31T17:56:55Z) - BFANet: Revisiting 3D Semantic Segmentation with Boundary Feature Analysis [33.53327976669034]
より粒度の細かいレンズを通して3Dセマンティックセマンティックセグメンテーションを再考し、より広範なパフォーマンス指標によって隠蔽される微妙な複雑さに光を当てます。
本稿では,BFANetと呼ばれる3次元セマンティックセマンティック・セマンティック・ネットワークを導入し,セマンティック・バウンダリの特徴を詳細に分析する。
論文 参考訳(メタデータ) (2025-03-16T15:13:11Z) - DCSEG: Decoupled 3D Open-Set Segmentation using Gaussian Splatting [0.0]
本稿では,新しい3次元表現へのモジュラリティと適応性を確保するために,分離した3次元分割パイプラインを提案する。
我々は、合成および実世界の屋内データセットを評価し、同等のNeRFパイプラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-12-14T21:26:44Z) - Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。
FreeGSは複雑なデータ前処理のワークロードを避けながら、最先端のメソッドと互換性がある。
論文 参考訳(メタデータ) (2024-11-29T08:52:32Z) - Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - Augmented Efficiency: Reducing Memory Footprint and Accelerating Inference for 3D Semantic Segmentation through Hybrid Vision [9.96433151449016]
本稿では,2次元と3次元のコンピュータビジョン技術を組み合わせた3次元セマンティックセグメンテーションの新たなアプローチを提案する。
我々は3次元点雲にリンクしたRGB画像に対して2Dセマンティックセマンティックセマンティックセマンティクスを行い、その結果をクラスラベルの押出手法を用いて3Dに拡張する。
このモデルは、KITTI-360データセット上の最先端の3Dセマンティックセマンティックセグメンテーションモデルとして機能する。
論文 参考訳(メタデータ) (2024-07-23T00:04:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。