論文の概要: Open Vocabulary 3D Scene Understanding via Geometry Guided Self-Distillation
- arxiv url: http://arxiv.org/abs/2407.13362v1
- Date: Thu, 18 Jul 2024 10:13:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 15:50:32.150337
- Title: Open Vocabulary 3D Scene Understanding via Geometry Guided Self-Distillation
- Title(参考訳): 幾何学的自己蒸留によるオープン語彙3次元シーン理解
- Authors: Pengfei Wang, Yuxi Wang, Shuai Li, Zhaoxiang Zhang, Zhen Lei, Lei Zhang,
- Abstract要約: 2次元事前学習モデルから優れた3次元表現を学習するための幾何学ガイド自己蒸留(GGSD)を提案する。
3D表現の利点により、蒸留した3D学生モデルの性能は2D教師モデルよりも大幅に上回ることができる。
- 参考スコア(独自算出の注目度): 67.36775428466045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The scarcity of large-scale 3D-text paired data poses a great challenge on open vocabulary 3D scene understanding, and hence it is popular to leverage internet-scale 2D data and transfer their open vocabulary capabilities to 3D models through knowledge distillation. However, the existing distillation-based 3D scene understanding approaches rely on the representation capacity of 2D models, disregarding the exploration of geometric priors and inherent representational advantages offered by 3D data. In this paper, we propose an effective approach, namely Geometry Guided Self-Distillation (GGSD), to learn superior 3D representations from 2D pre-trained models. Specifically, we first design a geometry guided distillation module to distill knowledge from 2D models, and then leverage the 3D geometric priors to alleviate the inherent noise in 2D models and enhance the representation learning process. Due to the advantages of 3D representation, the performance of the distilled 3D student model can significantly surpass that of the 2D teacher model. This motivates us to further leverage the representation advantages of 3D data through self-distillation. As a result, our proposed GGSD approach outperforms the existing open vocabulary 3D scene understanding methods by a large margin, as demonstrated by our experiments on both indoor and outdoor benchmark datasets.
- Abstract(参考訳): 大規模3次元テキストペアリングデータの不足は,オープンな3次元シーン理解において大きな課題となるため,インターネット規模の2次元データを活用し,知識蒸留を通じてオープンな3次元モデルに移植することが一般的である。
しかし,既存の蒸留法に基づく3次元シーン理解手法は,幾何学的先行点探索や3次元データによる固有表現的優位性を無視して,2次元モデルの表現能力に依存している。
本稿では,2次元事前学習モデルから優れた3次元表現を学習するための,幾何学的自己蒸留法(GGSD)を提案する。
具体的には,まず2次元モデルから知識を抽出するための幾何学誘導蒸留モジュールを設計し,次に,2次元モデル固有のノイズを緩和し,表現学習プロセスを強化するために3次元幾何先行手法を利用する。
3D表現の利点により、蒸留した3D学生モデルの性能は2D教師モデルよりも大幅に上回ることができる。
これにより、自己蒸留による3次元データの表現優位性をさらに活用する動機付けとなる。
その結果、GGSD手法は既存のオープンな3Dシーン理解手法よりも、屋内および屋外のベンチマークデータセットで実証したように、大きなマージンで優れていることがわかった。
関連論文リスト
- ConDense: Consistent 2D/3D Pre-training for Dense and Sparse Features from Multi-View Images [47.682942867405224]
ConDenseは既存の2Dネットワークと大規模マルチビューデータセットを利用した3D事前トレーニングのためのフレームワークである。
組込み型2Dと3Dの特徴をエンドツーエンドのパイプラインで抽出する新しい2D-3Dジョイントトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T05:57:01Z) - Improving 2D Feature Representations by 3D-Aware Fine-Tuning [17.01280751430423]
現在の視覚基礎モデルは、構造化されていない2Dデータに基づいて純粋に訓練されている。
3次元認識データの微調整により,出現するセマンティックな特徴の質が向上することを示す。
論文 参考訳(メタデータ) (2024-07-29T17:59:21Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D
Prior [52.44678180286886]
2次元拡散モデルでは、3次元データなしで優れた一般化と豊富な詳細を実現する蒸留手法が見つかる。
提案するSherpa3Dは,高忠実度,一般化性,幾何整合性を同時に実現する新しいテキスト・ツー・3Dフレームワークである。
論文 参考訳(メタデータ) (2023-12-11T18:59:18Z) - PartDistill: 3D Shape Part Segmentation by Vision-Language Model Distillation [20.62672097850052]
PartDistillは、視覚言語モデルから2Dの知識を伝達し、3D形状部分のセグメンテーションを促進することを目的としている。
PartDistillは、VLMを使って2D予測を行う教師ネットワークと、2D予測から学習する学生ネットワークで構成されている。
前者フォワードが学生ネットワークに2次元予測を蒸留するフレームワーク内で双方向蒸留を行う。
論文 参考訳(メタデータ) (2023-12-07T03:10:03Z) - Uni3D: Exploring Unified 3D Representation at Scale [66.26710717073372]
大規模に統一された3次元表現を探索する3次元基礎モデルであるUni3Dを提案する。
Uni3Dは、事前にトレーニングされた2D ViTのエンドツーエンドを使用して、3Dポイントクラウド機能と画像テキスト整列機能とを一致させる。
強力なUni3D表現は、野生での3D絵画や検索などの応用を可能にする。
論文 参考訳(メタデータ) (2023-10-10T16:49:21Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。