論文の概要: Panoptic Vision-Language Feature Fields
- arxiv url: http://arxiv.org/abs/2309.05448v2
- Date: Thu, 18 Jan 2024 08:33:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 20:09:17.241768
- Title: Panoptic Vision-Language Feature Fields
- Title(参考訳): パノプティカル・ビジョン-言語的特徴
- Authors: Haoran Chen, Kenneth Blomqvist, Francesco Milano and Roland Siegwart
- Abstract要約: オープンボキャブラリパノプティックセグメンテーションのための第1のアルゴリズムを3次元シーンで提案する。
本アルゴリズムは,事前学習した2次元モデルから視覚言語の特徴を抽出することにより,シーンの意味的特徴場を学習する。
提案手法は,HyperSim, ScanNet, Replicaデータセット上の最先端のクローズドセット3Dシステムと同様のパノプティカルセグメンテーション性能を実現する。
- 参考スコア(独自算出の注目度): 27.209602602110916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, methods have been proposed for 3D open-vocabulary semantic
segmentation. Such methods are able to segment scenes into arbitrary classes
based on text descriptions provided during runtime. In this paper, we propose
to the best of our knowledge the first algorithm for open-vocabulary panoptic
segmentation in 3D scenes. Our algorithm, Panoptic Vision-Language Feature
Fields (PVLFF), learns a semantic feature field of the scene by distilling
vision-language features from a pretrained 2D model, and jointly fits an
instance feature field through contrastive learning using 2D instance segments
on input frames. Despite not being trained on the target classes, our method
achieves panoptic segmentation performance similar to the state-of-the-art
closed-set 3D systems on the HyperSim, ScanNet and Replica dataset and
additionally outperforms current 3D open-vocabulary systems in terms of
semantic segmentation. We ablate the components of our method to demonstrate
the effectiveness of our model architecture. Our code will be available at
https://github.com/ethz-asl/pvlff.
- Abstract(参考訳): 近年,3次元オープン語彙セマンティックセグメンテーションの手法が提案されている。
このようなメソッドは、実行時に提供されるテキスト記述に基づいて、シーンを任意のクラスに分割することができる。
本稿では,我々の知識を最大限に活用するために,3dシーンにおける開語彙汎視セグメンテーションのための最初のアルゴリズムを提案する。
我々のアルゴリズムであるpanoptic vision-language feature fields(pvlff)は,事前訓練された2dモデルから視覚言語特徴を蒸留することで,シーンの意味的特徴領域を学習し,入力フレーム上の2dインスタンスセグメントを用いたコントラスト学習を通じてインスタンス特徴フィールドを協調的に適合させる。
対象クラスでトレーニングされていないにもかかわらず,提案手法はHyperSim,ScanNet,Replicaデータセット上の最先端のクローズドセット3Dシステムと同様のパノプティックセグメンテーション性能を達成し,またセグメンテーションの観点からも現行の3Dオープンボキャブラリシステムより優れている。
モデルアーキテクチャの有効性を示すために,本手法のコンポーネントを改良する。
私たちのコードはhttps://github.com/ethz-asl/pvlffで利用可能です。
関連論文リスト
- Search3D: Hierarchical Open-Vocabulary 3D Segmentation [78.47704793095669]
本稿では,階層的なオープンな3Dシーン表現を構築するためのアプローチであるSearch3Dを紹介する。
従来の方法とは異なり、Search3Dはより柔軟なオープンな3D検索パラダイムにシフトする。
体系的な評価のために,MultiScanに基づくシーンスケールのオープンボキャブラリ3D部分セグメンテーションベンチマークを提案する。
論文 参考訳(メタデータ) (2024-09-27T03:44:07Z) - Open-Vocabulary 3D Semantic Segmentation with Text-to-Image Diffusion Models [57.37244894146089]
Diff2Sceneは、テキスト画像生成モデルからの凍結表現と、サルエント・アウェアと幾何学的アウェアマスクを併用して、オープンな3次元セマンティックセマンティックセグメンテーションと視覚的グラウンドニングタスクに活用する。
競争ベースラインを上回り、最先端の手法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-07-18T16:20:56Z) - Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment [55.11291053011696]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。
事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。
限定的な再構築の場合、提案手法はWS3D++と呼ばれ、大規模なScanNetベンチマークで1位にランクインした。
論文 参考訳(メタデータ) (2023-12-01T15:47:04Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - Weakly Supervised 3D Open-vocabulary Segmentation [104.07740741126119]
学習済み基礎モデルCLIPとDINOを弱教師付きで活用することで,3次元オープン語彙セグメンテーションの課題に取り組む。
我々はCLIPとDINOのオープン語彙多様知識とオブジェクト推論能力をニューラルラディアンス場(NeRF)に蒸留する。
提案手法の特筆すべき点は,基礎モデルや蒸留プロセスに手動セグメンテーションアノテーションを必要としない点である。
論文 参考訳(メタデータ) (2023-05-23T14:16:49Z) - Neural Implicit Vision-Language Feature Fields [40.248658511361015]
ゼロショットボリュームのオープン語彙セマンティックシーンセグメンテーション法を提案する。
本手法は,視覚言語モデルからニューラル暗黙表現に画像特徴を融合させることができるという知見に基づいている。
本研究では,本手法が実世界のノイズの多いデータ上で動作し,テキストのプロンプトに適応してリアルタイムにリアルタイムにリアルタイムに動作可能であることを示す。
論文 参考訳(メタデータ) (2023-03-20T09:38:09Z) - OpenScene: 3D Scene Understanding with Open Vocabularies [73.1411930820683]
従来の3Dシーン理解アプローチは、単一のタスクのためにモデルをトレーニングするためのラベル付き3Dデータセットに依存している。
私たちは,CLIP機能空間にテキストと画像ピクセルを埋め込んだ3次元シーンポイントの高密度な特徴をモデルが予測する代替手法OpenSceneを提案する。
このゼロショットアプローチは、タスク非依存のトレーニングとオープン語彙クエリを可能にする。
論文 参考訳(メタデータ) (2022-11-28T18:58:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。