論文の概要: 3D Open-vocabulary Segmentation with Foundation Models
- arxiv url: http://arxiv.org/abs/2305.14093v2
- Date: Wed, 24 May 2023 09:18:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 10:44:02.333862
- Title: 3D Open-vocabulary Segmentation with Foundation Models
- Title(参考訳): 基礎モデルを用いた3次元オープン語彙セグメンテーション
- Authors: Kunhao Liu, Fangneng Zhan, Jiahui Zhang, Muyu Xu, Yingchen Yu,
Abdulmotaleb El Saddik, Christian Theobalt, Eric Xing, Shijian Lu
- Abstract要約: 学習済み基礎モデルCLIPとDINOのオープン語彙多様知識とオブジェクト推論能力を活用することで,3次元オープン語彙セグメンテーションの課題に取り組む。
具体的には,CLIPからのオープンボキャブラリ知識とテキスト知識をニューラルラディアンス場(NeRF)に蒸留し,2次元特徴をビュー一貫性の3Dセグメンテーションに効果的に持ち上げる。
我々の手法は、セグメンテーションアノテーションで訓練された完全教師付きモデルよりも優れています。
- 参考スコア(独自算出の注目度): 88.59157211298258
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Open-vocabulary segmentation of 3D scenes is a fundamental function of human
perception and thus a crucial objective in computer vision research. However,
this task is heavily impeded by the lack of large-scale and diverse 3D
open-vocabulary segmentation datasets for training robust and generalizable
models. Distilling knowledge from pre-trained 2D open-vocabulary segmentation
models helps but it compromises the open-vocabulary feature significantly as
the 2D models are mostly finetuned with close-vocabulary datasets. We tackle
the challenges in 3D open-vocabulary segmentation by exploiting the
open-vocabulary multimodal knowledge and object reasoning capability of
pre-trained foundation models CLIP and DINO, without necessitating any
fine-tuning. Specifically, we distill open-vocabulary visual and textual
knowledge from CLIP into a neural radiance field (NeRF) which effectively lifts
2D features into view-consistent 3D segmentation. Furthermore, we introduce the
Relevancy-Distribution Alignment loss and Feature-Distribution Alignment loss
to respectively mitigate the ambiguities of CLIP features and distill precise
object boundaries from DINO features, eliminating the need for segmentation
annotations during training. Extensive experiments show that our method even
outperforms fully supervised models trained with segmentation annotations,
suggesting that 3D open-vocabulary segmentation can be effectively learned from
2D images and text-image pairs.
- Abstract(参考訳): 3Dシーンのオープンボキャブラリセグメンテーションは人間の知覚の基本的な機能であり、コンピュータビジョン研究において重要な目的である。
しかし、このタスクは、堅牢で一般化可能なモデルをトレーニングするための大規模で多様な3dopen-vocabulary segmentationデータセットの欠如によって大きく妨げられている。
事前訓練された2Dオープン語彙セグメンテーションモデルからの知識の希釈は役立つが、2Dモデルは概ね近接語彙データセットで微調整されているため、オープン語彙の特徴を著しく損なう。
我々は,事前学習された基礎モデル clip と dino のオープンボキャブラリなマルチモーダル知識とオブジェクト推論能力を活用し,微調整を必要とせずに,3次元オープンボキャブラリセグメンテーションの課題に取り組む。
具体的には,CLIPからのオープンボキャブラリ知識とテキスト知識をニューラルラディアンス場(NeRF)に蒸留し,2次元特徴をビュー一貫性の3Dセグメンテーションに効果的に持ち上げる。
さらに,CLIP特徴のあいまいさを軽減し,DINO特徴から正確なオブジェクト境界を抽出し,トレーニング中にセグメンテーションアノテーションを不要にするため,Relevancy-Distribution Alignment LosとFeature-Distriion Alignment Losを導入する。
大規模な実験により,本手法はセグメンテーションアノテーションで訓練した完全教師付きモデルよりも優れており,2次元画像とテキストイメージペアから3次元オープン語彙セグメンテーションを効果的に学習できることが示唆された。
関連論文リスト
- Search3D: Hierarchical Open-Vocabulary 3D Segmentation [78.47704793095669]
オープンな3Dセグメンテーションにより、自由形式のテキスト記述を用いた3D空間の探索が可能となる。
本稿では,階層的なオープンな3Dシーン表現を構築するアプローチであるSearch3Dを紹介する。
本手法は,より柔軟なオープンな3次元検索設定にシフトすることで,オープン語彙のインスタンスレベル3次元セグメンテーションの能力を拡大することを目的としている。
論文 参考訳(メタデータ) (2024-09-27T03:44:07Z) - Open-Vocabulary 3D Semantic Segmentation with Text-to-Image Diffusion Models [57.37244894146089]
Diff2Sceneは、テキスト画像生成モデルからの凍結表現と、サルエント・アウェアと幾何学的アウェアマスクを併用して、オープンな3次元セマンティックセマンティックセグメンテーションと視覚的グラウンドニングタスクに活用する。
競争ベースラインを上回り、最先端の手法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-07-18T16:20:56Z) - Label-Efficient 3D Brain Segmentation via Complementary 2D Diffusion Models with Orthogonal Views [10.944692719150071]
相補的な2次元拡散モデルを用いた新しい3次元脳分割法を提案する。
私たちのゴールは、個々の主題に対して完全なラベルを必要とせずに、信頼性の高いセグメンテーション品質を達成することです。
論文 参考訳(メタデータ) (2024-07-17T06:14:53Z) - Dense Multimodal Alignment for Open-Vocabulary 3D Scene Understanding [39.55810156545949]
本稿では,多モードアライメント(Multimodal Alignment, DMA)フレームワークを提案する。
DMA法は,屋内および屋外の様々なタスクにおいて,高い競争力を持つオープン語彙セグメンテーション性能を実現する。
論文 参考訳(メタデータ) (2024-07-13T05:39:17Z) - GOV-NeSF: Generalizable Open-Vocabulary Neural Semantic Fields [50.68719394443926]
Generalizable Open-Vocabulary Neural Semantic Fields (GOV-NeSF)は、オープン語彙意味論による3Dシーンの一般化可能な暗黙的表現を提供する新しいアプローチである。
GOV-NeSFは2次元および3次元のオープン語彙セマンティックセマンティックセグメンテーションにおいて最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-04-01T05:19:50Z) - FM-OV3D: Foundation Model-based Cross-modal Knowledge Blending for
Open-Vocabulary 3D Detection [40.965892255504144]
FM-OV3Dは、オープンボキャブラリ3D検出のための基礎モデルに基づくクロスモーダル知識ブレンディングの手法である。
我々は,GPT-3や安定拡散モデル,CLIPのような相互識別モデルなど,生成基盤モデルの知識を活用している。
実験により,本モデルは複数の基礎モデルから知識を効率よく学習し,3次元モデルの開語彙能力を向上させることが確認された。
論文 参考訳(メタデータ) (2023-12-22T06:34:23Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - Panoptic Vision-Language Feature Fields [27.209602602110916]
オープンボキャブラリパノプティックセグメンテーションのための第1のアルゴリズムを3次元シーンで提案する。
本アルゴリズムは,事前学習した2次元モデルから視覚言語の特徴を抽出することにより,シーンの意味的特徴場を学習する。
提案手法は,HyperSim, ScanNet, Replicaデータセット上の最先端のクローズドセット3Dシステムと同様のパノプティカルセグメンテーション性能を実現する。
論文 参考訳(メタデータ) (2023-09-11T13:41:27Z) - OpenScene: 3D Scene Understanding with Open Vocabularies [73.1411930820683]
従来の3Dシーン理解アプローチは、単一のタスクのためにモデルをトレーニングするためのラベル付き3Dデータセットに依存している。
私たちは,CLIP機能空間にテキストと画像ピクセルを埋め込んだ3次元シーンポイントの高密度な特徴をモデルが予測する代替手法OpenSceneを提案する。
このゼロショットアプローチは、タスク非依存のトレーニングとオープン語彙クエリを可能にする。
論文 参考訳(メタデータ) (2022-11-28T18:58:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。