論文の概要: Panoptic Vision-Language Feature Fields
- arxiv url: http://arxiv.org/abs/2309.05448v1
- Date: Mon, 11 Sep 2023 13:41:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 12:37:54.361038
- Title: Panoptic Vision-Language Feature Fields
- Title(参考訳): パノプティカル・ビジョン-言語的特徴
- Authors: Haoran Chen, Kenneth Blomqvist, Francesco Milano and Roland Siegwart
- Abstract要約: 本稿では,オープンボキャブラリパノプティックセグメンテーションのための最初のアルゴリズムを提案し,セマンティックセグメンテーションとインスタンスセグメンテーションの両方を同時に実行した。
提案手法は,HyperSim, ScanNet, Replicaデータセット上の最先端のクローズドセット3Dパノプティクスシステムに対して同等の性能を実現する。
- 参考スコア(独自算出の注目度): 27.209602602110916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, methods have been proposed for 3D open-vocabulary semantic
segmentation. Such methods are able to segment scenes into arbitrary classes
given at run-time using their text description. In this paper, we propose to
our knowledge the first algorithm for open-vocabulary panoptic segmentation,
simultaneously performing both semantic and instance segmentation. Our
algorithm, Panoptic Vision-Language Feature Fields (PVLFF) learns a feature
field of the scene, jointly learning vision-language features and hierarchical
instance features through a contrastive loss function from 2D instance segment
proposals on input frames. Our method achieves comparable performance against
the state-of-the-art close-set 3D panoptic systems on the HyperSim, ScanNet and
Replica dataset and outperforms current 3D open-vocabulary systems in terms of
semantic segmentation. We additionally ablate our method to demonstrate the
effectiveness of our model architecture. Our code will be available at
https://github.com/ethz-asl/autolabel.
- Abstract(参考訳): 近年,3次元オープン語彙セマンティックセグメンテーションの手法が提案されている。
このようなメソッドは、シーンをテキスト記述を使用して実行時に与えられた任意のクラスに分割することができる。
本稿では,オープンボキャブラリパノプティックセグメンテーションのための最初のアルゴリズムについて,セマンティックセグメンテーションとインスタンスセグメンテーションを同時に行うことを提案する。
提案手法であるPVLFF(Panoptic Vision-Language Feature Fields)は,入力フレーム上の2次元インスタンスセグメントの提案から,コントラスト損失関数を用いて視覚言語特徴と階層的インスタンス特徴を共同学習する。
提案手法は,HyperSim,ScanNet,Replicaの3Dパノプティクスシステムと同等の性能を達成し,セマンティックセグメンテーションの観点から現在の3Dオープン語彙システムより優れている。
また,モデルアーキテクチャの有効性を示すために,手法を改良する。
私たちのコードはhttps://github.com/ethz-asl/autolabelで利用可能です。
関連論文リスト
- Search3D: Hierarchical Open-Vocabulary 3D Segmentation [78.47704793095669]
オープンな3Dセグメンテーションにより、自由形式のテキスト記述を用いた3D空間の探索が可能となる。
本稿では,階層的なオープンな3Dシーン表現を構築するアプローチであるSearch3Dを紹介する。
本手法は,より柔軟なオープンな3次元検索設定にシフトすることで,オープン語彙のインスタンスレベル3次元セグメンテーションの能力を拡大することを目的としている。
論文 参考訳(メタデータ) (2024-09-27T03:44:07Z) - Open-Vocabulary 3D Semantic Segmentation with Text-to-Image Diffusion Models [57.37244894146089]
Diff2Sceneは、テキスト画像生成モデルからの凍結表現と、サルエント・アウェアと幾何学的アウェアマスクを併用して、オープンな3次元セマンティックセマンティックセグメンテーションと視覚的グラウンドニングタスクに活用する。
競争ベースラインを上回り、最先端の手法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-07-18T16:20:56Z) - 3D Weakly Supervised Semantic Segmentation with 2D Vision-Language Guidance [68.8825501902835]
3DSS-VLGは2Dビジョンランゲージ誘導を用いた3Dセマンティックの弱い教師付きアプローチである。
我々の知る限りでは、テキストカテゴリラベルのテキスト意味情報を用いて、弱教師付きセマンティックセマンティックセグメンテーションを調査するのは、これが初めてである。
論文 参考訳(メタデータ) (2024-07-13T09:39:11Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - Weakly Supervised 3D Open-vocabulary Segmentation [104.07740741126119]
学習済み基礎モデルCLIPとDINOを弱教師付きで活用することで,3次元オープン語彙セグメンテーションの課題に取り組む。
我々はCLIPとDINOのオープン語彙多様知識とオブジェクト推論能力をニューラルラディアンス場(NeRF)に蒸留する。
提案手法の特筆すべき点は,基礎モデルや蒸留プロセスに手動セグメンテーションアノテーションを必要としない点である。
論文 参考訳(メタデータ) (2023-05-23T14:16:49Z) - Neural Implicit Vision-Language Feature Fields [40.248658511361015]
ゼロショットボリュームのオープン語彙セマンティックシーンセグメンテーション法を提案する。
本手法は,視覚言語モデルからニューラル暗黙表現に画像特徴を融合させることができるという知見に基づいている。
本研究では,本手法が実世界のノイズの多いデータ上で動作し,テキストのプロンプトに適応してリアルタイムにリアルタイムにリアルタイムに動作可能であることを示す。
論文 参考訳(メタデータ) (2023-03-20T09:38:09Z) - OpenScene: 3D Scene Understanding with Open Vocabularies [73.1411930820683]
従来の3Dシーン理解アプローチは、単一のタスクのためにモデルをトレーニングするためのラベル付き3Dデータセットに依存している。
私たちは,CLIP機能空間にテキストと画像ピクセルを埋め込んだ3次元シーンポイントの高密度な特徴をモデルが予測する代替手法OpenSceneを提案する。
このゼロショットアプローチは、タスク非依存のトレーニングとオープン語彙クエリを可能にする。
論文 参考訳(メタデータ) (2022-11-28T18:58:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。