論文の概要: PointDico: Contrastive 3D Representation Learning Guided by Diffusion Models
- arxiv url: http://arxiv.org/abs/2512.08330v1
- Date: Tue, 09 Dec 2025 07:57:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.867846
- Title: PointDico: Contrastive 3D Representation Learning Guided by Diffusion Models
- Title(参考訳): PointDico:拡散モデルで導かれる対照的な3次元表現学習
- Authors: Pengbo Li, Yiding Sun, Haozhe Cheng,
- Abstract要約: textitPointDicoは、生成的モデリングの認知と、知識の蒸留を通じて、相互モーダルなコントラスト学習の両方から学習する。
textitPointDicoは、ScanObjectNNのtextbf94.32%の精度、ShapeNetPartのtextbf86.5%のInst.mIoUといった3D表現学習において、新しい最先端の3D表現学習を実現している。
- 参考スコア(独自算出の注目度): 5.077352707415241
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised representation learning has shown significant improvement in Natural Language Processing and 2D Computer Vision. However, existing methods face difficulties in representing 3D data because of its unordered and uneven density. Through an in-depth analysis of mainstream contrastive and generative approaches, we find that contrastive models tend to suffer from overfitting, while 3D Mask Autoencoders struggle to handle unordered point clouds. This motivates us to learn 3D representations by sharing the merits of diffusion and contrast models, which is non-trivial due to the pattern difference between the two paradigms. In this paper, we propose \textit{PointDico}, a novel model that seamlessly integrates these methods. \textit{PointDico} learns from both denoising generative modeling and cross-modal contrastive learning through knowledge distillation, where the diffusion model serves as a guide for the contrastive model. We introduce a hierarchical pyramid conditional generator for multi-scale geometric feature extraction and employ a dual-channel design to effectively integrate local and global contextual information. \textit{PointDico} achieves a new state-of-the-art in 3D representation learning, \textit{e.g.}, \textbf{94.32\%} accuracy on ScanObjectNN, \textbf{86.5\%} Inst. mIoU on ShapeNetPart.
- Abstract(参考訳): 自己教師付き表現学習は自然言語処理と2次元コンピュータビジョンにおいて著しく改善されている。
しかし, 既存の手法では, 不規則で不均一な密度のため, 3次元データの表現が困難である。
主流のコントラストとジェネレーティブのアプローチを詳細に分析した結果、3D Mask Autoencodersは秩序のない点群を扱うのに苦労する一方で、コントラストのモデルは過度に適合する傾向にあることがわかった。
これは拡散モデルとコントラストモデルの利点を共有することで3次元表現を学ぶ動機となり、これは2つのパラダイムのパターンの違いによって非自明である。
本稿では,これらの手法をシームレスに統合する新しいモデルであるtextit{PointDico}を提案する。
\textit{PointDico} は、生成的モデリングと知識蒸留によるクロスモーダルコントラスト学習の両方から学習する。
マルチスケールな幾何学的特徴抽出のための階層型ピラミッド条件生成器を導入し、局所的・大域的文脈情報を効果的に統合するために二重チャネル設計を用いる。
\textit{PointDico} は ScanObjectNN, \textbf{86.5\%} Inst 上で, 3D 表現学習における新しい最先端性, \textit{e g }, \textbf{94.32\%} の精度を実現する。
はShapeNetPartのmIoU。
関連論文リスト
- Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding [58.38294408121273]
CUA-O3Dと呼ばれるオープン語彙3次元シーン理解のためのクロスモーダル・不確実性認識アグリゲーションを提案する。
提案手法は,(1)空間認識型視覚基盤モデルの幾何学的知識とともに,VLMのセマンティックな先入観を取り入れること,(2)モデル固有の不確かさを捉えるために,新しい決定論的不確実性推定を用いること,の2つの課題に対処する。
論文 参考訳(メタデータ) (2025-03-20T20:58:48Z) - Introducing 3D Representation for Medical Image Volume-to-Volume Translation via Score Fusion [3.3559609260669303]
Score-Fusionは、垂直に訓練された2次元拡散モデルをスコア関数空間に組み込むことで、3次元表現を効果的に学習する新しいボリューム変換モデルである。
Score-Fusionは,3次元医用画像の高分解能・モダリティ変換において,高い精度と容積忠実性が得られることを示す。
論文 参考訳(メタデータ) (2025-01-13T15:54:21Z) - A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本稿では,2次元監視のみを用いた3次元画像調和拡散モデルの学習フレームワークを提案する。
既存の3D生成モデルは、大規模な3Dデータセットが不足しているため、完全に3Dの監視に依存している。
論文 参考訳(メタデータ) (2024-12-01T00:29:57Z) - Open-Vocabulary 3D Semantic Segmentation with Text-to-Image Diffusion Models [57.37244894146089]
Diff2Sceneは、テキスト画像生成モデルからの凍結表現と、サルエント・アウェアと幾何学的アウェアマスクを併用して、オープンな3次元セマンティックセマンティックセグメンテーションと視覚的グラウンドニングタスクに活用する。
競争ベースラインを上回り、最先端の手法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-07-18T16:20:56Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - FMGS: Foundation Model Embedded 3D Gaussian Splatting for Holistic 3D Scene Understanding [11.118857208538039]
基礎モデルの視覚言語埋め込みを3次元ガウススプラッティング(GS)に組み込んだ基礎モデル埋め込みガウススプラッティング(S)を提案する。
結果は、多面的なセマンティック一貫性を示し、様々な下流タスクを容易にし、オープン語彙言語に基づくオブジェクト検出において、最先端のメソッドを10.2%上回った。
本研究では,視覚・言語・3次元シーン表現の交わりについて検討し,制御されていない現実世界環境におけるシーン理解の強化の道を開く。
論文 参考訳(メタデータ) (2024-01-03T20:39:02Z) - Bridging the Domain Gap: Self-Supervised 3D Scene Understanding with
Foundation Models [18.315856283440386]
ファンデーションモデルは、イメージセグメンテーション、オブジェクト検出、視覚言語理解といった2Dおよび言語タスクにおいて顕著な成果を上げている。
3Dシーンの表現学習を豊かにする能力は、ドメインギャップの存在によってほとんど失われる。
そこで我々は,Bridge3Dと呼ばれる斬新な手法を提案し,特徴,セマンティックマスク,基礎モデルからのソースキャプションを用いた3Dモデルの事前学習を行った。
論文 参考訳(メタデータ) (2023-05-15T16:36:56Z) - Contrast with Reconstruct: Contrastive 3D Representation Learning Guided
by Generative Pretraining [26.908554018069545]
本稿ではコントラストとReconstruct(ReCon)を融合したコントラストモデルを提案する。
Encoder-decoder スタイルの ReCon-block が提案されている。
ReConは、ScanObjectNNの91.26%の精度など、新しい最先端の3D表現学習を実現している。
論文 参考訳(メタデータ) (2023-02-05T06:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。