論文の概要: Bridging the Domain Gap: Self-Supervised 3D Scene Understanding with
Foundation Models
- arxiv url: http://arxiv.org/abs/2305.08776v1
- Date: Mon, 15 May 2023 16:36:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 13:47:53.929092
- Title: Bridging the Domain Gap: Self-Supervised 3D Scene Understanding with
Foundation Models
- Title(参考訳): ドメインギャップのブリッジ:基礎モデルによる自己監督型3Dシーン理解
- Authors: Zhimin Chen, Bing Li
- Abstract要約: ファンデーションモデルは、イメージセグメンテーション、オブジェクト検出、視覚言語理解などの2Dおよび言語タスクにおいて大きな進歩を遂げている。
3Dシーン表現学習の強化の可能性は、ドメインギャップのため、ほとんど未解決のままである。
本稿では,このギャップに対処する革新的手法であるBridge3Dを提案し,基礎モデルから派生した特徴,意味マスク,キャプションを用いて3Dモデルを事前学習する。
- 参考スコア(独自算出の注目度): 5.040620420567797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models have made significant strides in 2D and language tasks such
as image segmentation, object detection, and visual-language understanding.
Nevertheless, their potential to enhance 3D scene representation learning
remains largely untapped due to the domain gap. In this paper, we propose an
innovative methodology Bridge3D to address this gap, pre-training 3D models
using features, semantic masks, and captions sourced from foundation models.
Specifically, our approach utilizes semantic masks from these models to guide
the masking and reconstruction process in the masked autoencoder. This strategy
enables the network to concentrate more on foreground objects, thereby
enhancing 3D representation learning. Additionally, we bridge the 3D-text gap
at the scene level by harnessing image captioning foundation models. To further
facilitate knowledge distillation from well-learned 2D and text representations
to the 3D model, we introduce a novel method that employs foundation models to
generate highly accurate object-level masks and semantic text information at
the object level. Our approach notably outshines state-of-the-art methods in 3D
object detection and semantic segmentation tasks. For instance, on the ScanNet
dataset, our method surpasses the previous state-of-the-art method, PiMAE, by a
significant margin of 5.3%.
- Abstract(参考訳): ファンデーションモデルは、イメージセグメンテーション、オブジェクト検出、視覚言語理解などの2Dおよび言語タスクにおいて大きな進歩を遂げている。
それでも、ドメインギャップのため、3dシーン表現学習を強化する可能性はほとんどない。
本稿では,このギャップに対処する革新的な手法であるBridge3Dを提案し,基礎モデルから得られる特徴,セマンティックマスク,キャプションを用いて3Dモデルを事前学習する。
具体的には,これらのモデルから得られた意味的マスクを用いて,マスク付きオートエンコーダのマスキングと再構成プロセスをガイドする。
この戦略により、ネットワークは前景のオブジェクトに集中し、3d表現学習を強化することができる。
さらに,画像キャプション基礎モデルを用いて,シーンレベルでの3次元テキストギャップを橋渡しする。
さらに, 3次元モデルへの知識の蒸留をさらに促進するため, 基礎モデルを用いて高精度なオブジェクトレベルマスクと意味テキスト情報をオブジェクトレベルで生成する新しい手法を提案する。
提案手法は,3次元物体検出と意味セグメンテーションタスクにおいて最先端手法を特に上回っている。
例えば、ScanNetデータセットでは、我々の手法が従来の最先端手法であるPiMAEを5.3%上回る。
関連論文リスト
- MOSE: Monocular Semantic Reconstruction Using NeRF-Lifted Noisy Priors [11.118490283303407]
画像レベルの雑音を3次元に引き上げるニューラルネットワークセマンティック・リコンストラクション手法を提案する。
本手法は3次元空間と2次元空間の両方で正確な意味論と幾何学を生成する。
論文 参考訳(メタデータ) (2024-09-21T05:12:13Z) - RefMask3D: Language-Guided Transformer for 3D Referring Segmentation [32.11635464720755]
RefMask3Dは、総合的なマルチモーダル機能インタラクションと理解を探求することを目的としている。
RefMask3Dは、挑戦的なScanReferデータセットにおいて、3.16% mIoUの大きなマージンで、従来の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-25T17:58:03Z) - Open-Vocabulary 3D Semantic Segmentation with Text-to-Image Diffusion Models [57.37244894146089]
Diff2Sceneは、テキスト画像生成モデルからの凍結表現と、サルエント・アウェアと幾何学的アウェアマスクを併用して、オープンな3次元セマンティックセマンティックセグメンテーションと視覚的グラウンドニングタスクに活用する。
競争ベースラインを上回り、最先端の手法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-07-18T16:20:56Z) - PointSeg: A Training-Free Paradigm for 3D Scene Segmentation via Foundation Models [51.24979014650188]
我々は、市販の視覚基盤モデルを利用して、3Dシーン認識タスクに対処する学習自由パラダイムであるPointSegを提案する。
PointSegは正確な3Dプロンプトを取得してフレーム間で対応するピクセルを調整することで、任意の3Dシーンを分割することができる。
ScanNet、ScanNet++、KITTI-360データセット上の14.1$%、12.3$%、12.6$%のmAPは、最先端のトレーニングフリーモデルを大きく上回っている。
論文 参考訳(メタデータ) (2024-03-11T03:28:20Z) - FMGS: Foundation Model Embedded 3D Gaussian Splatting for Holistic 3D Scene Understanding [11.118857208538039]
基礎モデルの視覚言語埋め込みを3次元ガウススプラッティング(GS)に組み込んだ基礎モデル埋め込みガウススプラッティング(S)を提案する。
結果は、多面的なセマンティック一貫性を示し、様々な下流タスクを容易にし、オープン語彙言語に基づくオブジェクト検出において、最先端のメソッドを10.2%上回った。
本研究では,視覚・言語・3次元シーン表現の交わりについて検討し,制御されていない現実世界環境におけるシーン理解の強化の道を開く。
論文 参考訳(メタデータ) (2024-01-03T20:39:02Z) - 3DStyle-Diffusion: Pursuing Fine-grained Text-driven 3D Stylization with
2D Diffusion Models [102.75875255071246]
テキスト駆動型スタイリングによる3Dコンテンツ作成は、マルチメディアとグラフィックコミュニティにとって根本的な課題となっている。
2次元拡散モデルから制御可能な外観と幾何学的ガイダンスを付加した3次元メッシュのきめ細かいスタイリングをトリガーする新しい3DStyle-Diffusionモデルを提案する。
論文 参考訳(メタデータ) (2023-11-09T15:51:27Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。