論文の概要: CLIP-FO3D: Learning Free Open-world 3D Scene Representations from 2D
Dense CLIP
- arxiv url: http://arxiv.org/abs/2303.04748v1
- Date: Wed, 8 Mar 2023 17:30:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-09 13:01:26.633765
- Title: CLIP-FO3D: Learning Free Open-world 3D Scene Representations from 2D
Dense CLIP
- Title(参考訳): CLIP-FO3D: 2D Dense CLIPから自由なオープンワールド3Dシーン表現を学ぶ
- Authors: Junbo Zhang, Runpei Dong, Kaisheng Ma
- Abstract要約: 3Dシーン理解モデルのトレーニングには、複雑な人間のアノテーションが必要である。
視覚言語による事前学習モデル(例えばCLIP)は、顕著なオープンワールド推論特性を示している。
本稿では,CLIPの特徴空間を直接3次元シーン理解モデルに変換することを提案する。
- 参考スコア(独自算出の注目度): 19.66617835750012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training a 3D scene understanding model requires complicated human
annotations, which are laborious to collect and result in a model only encoding
close-set object semantics. In contrast, vision-language pre-training models
(e.g., CLIP) have shown remarkable open-world reasoning properties. To this
end, we propose directly transferring CLIP's feature space to 3D scene
understanding model without any form of supervision. We first modify CLIP's
input and forwarding process so that it can be adapted to extract dense pixel
features for 3D scene contents. We then project multi-view image features to
the point cloud and train a 3D scene understanding model with feature
distillation. Without any annotations or additional training, our model
achieves promising annotation-free semantic segmentation results on
open-vocabulary semantics and long-tailed concepts. Besides, serving as a
cross-modal pre-training framework, our method can be used to improve data
efficiency during fine-tuning. Our model outperforms previous SOTA methods in
various zero-shot and data-efficient learning benchmarks. Most importantly, our
model successfully inherits CLIP's rich-structured knowledge, allowing 3D scene
understanding models to recognize not only object concepts but also open-world
semantics.
- Abstract(参考訳): 3Dシーン理解モデルのトレーニングには複雑な人間のアノテーションが必要である。
対照的に、視覚言語による事前学習モデル(例えばCLIP)は、顕著なオープンワールド推論特性を示している。
そこで本研究では,CLIPの特徴空間を直接3次元シーン理解モデルに変換することを提案する。
私たちはまず,CLIPの入力・転送処理を3次元シーンコンテンツのための高密度画素特徴抽出に適用できるように修正する。
次に,マルチビュー画像機能をポイントクラウドに投影し,機能蒸留による3次元シーン理解モデルをトレーニングする。
アノテーションや追加のトレーニングがなければ、オープンボキャブラリセマンティクスとロングテールの概念に対して、アノテーションフリーなセマンティクスセグメンテーション結果が得られる。
また, クロスモーダルな事前学習フレームワークとして機能し, 微調整時のデータ効率向上に有効である。
我々のモデルは、様々なゼロショットおよびデータ効率の学習ベンチマークにおいて、従来のSOTA手法よりも優れている。
最も重要なことは、私たちのモデルはCLIPの豊富な構造化知識を継承し、3Dシーン理解モデルがオブジェクトの概念だけでなく、オープンワールドのセマンティクスも認識できるようにすることです。
関連論文リスト
- DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - Cross-Modal Self-Training: Aligning Images and Pointclouds to Learn Classification without Labels [69.55622471172941]
CLIPのような大規模ビジョン2D視覚言語モデルは、一般化可能な(オープン語彙)3D視覚モデルを学ぶために3Dエンコーダと整列することができる。
ゼロショット3Dビジョンモデルのラベルなし分類性能を改善するために、クロスモーダル自己訓練(Cross-MoST: Cross-Modal Self-Training)を提案する。
論文 参考訳(メタデータ) (2024-04-15T21:30:50Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - Weakly Supervised 3D Open-vocabulary Segmentation [104.07740741126119]
学習済み基礎モデルCLIPとDINOを弱教師付きで活用することで,3次元オープン語彙セグメンテーションの課題に取り組む。
我々はCLIPとDINOのオープン語彙多様知識とオブジェクト推論能力をニューラルラディアンス場(NeRF)に蒸留する。
提案手法の特筆すべき点は,基礎モデルや蒸留プロセスに手動セグメンテーションアノテーションを必要としない点である。
論文 参考訳(メタデータ) (2023-05-23T14:16:49Z) - Bridging the Domain Gap: Self-Supervised 3D Scene Understanding with
Foundation Models [18.315856283440386]
ファンデーションモデルは、イメージセグメンテーション、オブジェクト検出、視覚言語理解といった2Dおよび言語タスクにおいて顕著な成果を上げている。
3Dシーンの表現学習を豊かにする能力は、ドメインギャップの存在によってほとんど失われる。
そこで我々は,Bridge3Dと呼ばれる斬新な手法を提案し,特徴,セマンティックマスク,基礎モデルからのソースキャプションを用いた3Dモデルの事前学習を行った。
論文 参考訳(メタデータ) (2023-05-15T16:36:56Z) - CLIP2Scene: Towards Label-efficient 3D Scene Understanding by CLIP [55.864132158596206]
Contrastive Language-Image Pre-Training (CLIP) は、2次元ゼロショットおよび少数ショット学習において有望な結果をもたらす。
私たちは,CLIP知識が3Dシーン理解にどう役立つか,最初の試みを行う。
筆者らは,CLIPの知識を2次元画像テキスト事前学習モデルから3次元ポイント・クラウド・ネットワークに転送するフレームワークであるCLIP2Sceneを提案する。
論文 参考訳(メタデータ) (2023-01-12T10:42:39Z) - OpenScene: 3D Scene Understanding with Open Vocabularies [73.1411930820683]
従来の3Dシーン理解アプローチは、単一のタスクのためにモデルをトレーニングするためのラベル付き3Dデータセットに依存している。
私たちは,CLIP機能空間にテキストと画像ピクセルを埋め込んだ3次元シーンポイントの高密度な特徴をモデルが予測する代替手法OpenSceneを提案する。
このゼロショットアプローチは、タスク非依存のトレーニングとオープン語彙クエリを可能にする。
論文 参考訳(メタデータ) (2022-11-28T18:58:36Z) - Prompt-guided Scene Generation for 3D Zero-Shot Learning [8.658191774247944]
本稿では,ネットワークをよりよく学習するための3Dデータを増やすために,プロンプト誘導型3Dシーン生成と監視手法を提案する。
まず、2つの3Dモデルの点雲を、プロンプトによって記述された特定の方法でマージする。
我々は、合成(ModelNet40, ModelNet10)および実走査(ScanOjbectNN)3Dオブジェクトデータセット上で、最先端のZSLと一般化されたZSL性能を実現した。
論文 参考訳(メタデータ) (2022-09-29T11:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。