論文の概要: Bridging the Domain Gap: Self-Supervised 3D Scene Understanding with
Foundation Models
- arxiv url: http://arxiv.org/abs/2305.08776v3
- Date: Thu, 2 Nov 2023 15:21:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 17:43:51.814064
- Title: Bridging the Domain Gap: Self-Supervised 3D Scene Understanding with
Foundation Models
- Title(参考訳): ドメインギャップのブリッジ:基礎モデルによる自己監督型3Dシーン理解
- Authors: Zhimin Chen, Longlong Jing, Yingwei Li, Bing Li
- Abstract要約: ファンデーションモデルは、イメージセグメンテーション、オブジェクト検出、視覚言語理解といった2Dおよび言語タスクにおいて顕著な成果を上げている。
3Dシーンの表現学習を豊かにする能力は、ドメインギャップの存在によってほとんど失われる。
そこで我々は,Bridge3Dと呼ばれる斬新な手法を提案し,特徴,セマンティックマスク,基礎モデルからのソースキャプションを用いた3Dモデルの事前学習を行った。
- 参考スコア(独自算出の注目度): 18.315856283440386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models have achieved remarkable results in 2D and language tasks
like image segmentation, object detection, and visual-language understanding.
However, their potential to enrich 3D scene representation learning is largely
untapped due to the existence of the domain gap. In this work, we propose an
innovative methodology called Bridge3D to address this gap by pre-training 3D
models using features, semantic masks, and captions sourced from foundation
models. Specifically, our method employs semantic masks from foundation models
to guide the masking and reconstruction process for the masked autoencoder,
enabling more focused attention on foreground representations. Moreover, we
bridge the 3D-text gap at the scene level using image captioning foundation
models, thereby facilitating scene-level knowledge distillation. We further
extend this bridging effort by introducing an innovative object-level knowledge
distillation method that harnesses highly accurate object-level masks and
semantic text data from foundation models. Our methodology significantly
surpasses the performance of existing state-of-the-art methods in 3D object
detection and semantic segmentation tasks. For instance, on the ScanNet
dataset, Bridge3D improves the baseline by a notable margin of 6.3%. Code will
be available at: https://github.com/Zhimin-C/Bridge3D
- Abstract(参考訳): 基礎モデルは、画像のセグメンテーション、オブジェクト検出、視覚言語理解などの2dおよび言語タスクで顕著な結果を達成している。
しかし,3次元シーン表現学習を充実させる可能性は,領域ギャップの存在によってほとんど失われる。
本研究では,基礎モデルから派生した特徴,セマンティックマスク,キャプションを用いて3次元モデルの事前学習を行うことにより,このギャップに対処する,Bridge3Dと呼ばれる革新的な手法を提案する。
具体的には,基礎モデルのセマンティックマスクを用いて,マスク付きオートエンコーダのマスキングと再構築のプロセスを導出し,フォアグラウンド表現により注目する。
さらに,画像キャプション基礎モデルを用いて,シーンレベルの3次元テキストギャップをブリッジし,シーンレベルの知識蒸留を容易にする。
基礎モデルからの高精度なオブジェクトレベルのマスクとセマンティックテキストデータを活用する,革新的なオブジェクトレベルの知識蒸留手法を導入することで,このブリッジングの取り組みをさらに拡張する。
提案手法は3次元オブジェクト検出およびセマンティックセグメンテーションタスクにおける既存の最先端手法の性能を大幅に上回る。
例えば、scannetデータセットでは、bridge3dがベースラインを6.3%改善している。
コードは以下の通り。 https://github.com/Zhimin-C/Bridge3D
関連論文リスト
- XMask3D: Cross-modal Mask Reasoning for Open Vocabulary 3D Semantic Segmentation [72.12250272218792]
本稿では,3次元特徴量と2次元テキスト埋め込み空間とのより精巧なマスクレベルのアライメントを,クロスモーダルマスク推論フレームワークであるXMask3Dを用いて提案する。
我々は、3Dグローバルな特徴を暗黙の条件として、事前訓練された2D denoising UNetに統合し、セグメンテーションマスクの生成を可能にする。
生成した2Dマスクを用いて、マスクレベルの3D表現を視覚言語の特徴空間と整合させ、3D幾何埋め込みの開語彙能力を増大させる。
論文 参考訳(メタデータ) (2024-11-20T12:02:12Z) - MOSE: Monocular Semantic Reconstruction Using NeRF-Lifted Noisy Priors [11.118490283303407]
画像レベルの雑音を3次元に引き上げるニューラルネットワークセマンティック・リコンストラクション手法を提案する。
本手法は3次元空間と2次元空間の両方で正確な意味論と幾何学を生成する。
論文 参考訳(メタデータ) (2024-09-21T05:12:13Z) - RefMask3D: Language-Guided Transformer for 3D Referring Segmentation [32.11635464720755]
RefMask3Dは、総合的なマルチモーダル機能インタラクションと理解を探求することを目的としている。
RefMask3Dは、挑戦的なScanReferデータセットにおいて、3.16% mIoUの大きなマージンで、従来の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-25T17:58:03Z) - Open-Vocabulary 3D Semantic Segmentation with Text-to-Image Diffusion Models [57.37244894146089]
Diff2Sceneは、テキスト画像生成モデルからの凍結表現と、サルエント・アウェアと幾何学的アウェアマスクを併用して、オープンな3次元セマンティックセマンティックセグメンテーションと視覚的グラウンドニングタスクに活用する。
競争ベースラインを上回り、最先端の手法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-07-18T16:20:56Z) - PointSeg: A Training-Free Paradigm for 3D Scene Segmentation via Foundation Models [51.24979014650188]
我々は、市販の視覚基盤モデルを利用して、3Dシーン認識タスクに対処する学習自由パラダイムであるPointSegを提案する。
PointSegは正確な3Dプロンプトを取得してフレーム間で対応するピクセルを調整することで、任意の3Dシーンを分割することができる。
ScanNet、ScanNet++、KITTI-360データセット上の14.1$%、12.3$%、12.6$%のmAPは、最先端のトレーニングフリーモデルを大きく上回っている。
論文 参考訳(メタデータ) (2024-03-11T03:28:20Z) - FMGS: Foundation Model Embedded 3D Gaussian Splatting for Holistic 3D Scene Understanding [11.118857208538039]
基礎モデルの視覚言語埋め込みを3次元ガウススプラッティング(GS)に組み込んだ基礎モデル埋め込みガウススプラッティング(S)を提案する。
結果は、多面的なセマンティック一貫性を示し、様々な下流タスクを容易にし、オープン語彙言語に基づくオブジェクト検出において、最先端のメソッドを10.2%上回った。
本研究では,視覚・言語・3次元シーン表現の交わりについて検討し,制御されていない現実世界環境におけるシーン理解の強化の道を開く。
論文 参考訳(メタデータ) (2024-01-03T20:39:02Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。