論文の概要: Panoptic Vision-Language Feature Fields
- arxiv url: http://arxiv.org/abs/2309.05448v1
- Date: Mon, 11 Sep 2023 13:41:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 12:37:54.361038
- Title: Panoptic Vision-Language Feature Fields
- Title(参考訳): パノプティカル・ビジョン-言語的特徴
- Authors: Haoran Chen, Kenneth Blomqvist, Francesco Milano and Roland Siegwart
- Abstract要約: 本稿では,オープンボキャブラリパノプティックセグメンテーションのための最初のアルゴリズムを提案し,セマンティックセグメンテーションとインスタンスセグメンテーションの両方を同時に実行した。
提案手法は,HyperSim, ScanNet, Replicaデータセット上の最先端のクローズドセット3Dパノプティクスシステムに対して同等の性能を実現する。
- 参考スコア(独自算出の注目度): 27.209602602110916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, methods have been proposed for 3D open-vocabulary semantic
segmentation. Such methods are able to segment scenes into arbitrary classes
given at run-time using their text description. In this paper, we propose to
our knowledge the first algorithm for open-vocabulary panoptic segmentation,
simultaneously performing both semantic and instance segmentation. Our
algorithm, Panoptic Vision-Language Feature Fields (PVLFF) learns a feature
field of the scene, jointly learning vision-language features and hierarchical
instance features through a contrastive loss function from 2D instance segment
proposals on input frames. Our method achieves comparable performance against
the state-of-the-art close-set 3D panoptic systems on the HyperSim, ScanNet and
Replica dataset and outperforms current 3D open-vocabulary systems in terms of
semantic segmentation. We additionally ablate our method to demonstrate the
effectiveness of our model architecture. Our code will be available at
https://github.com/ethz-asl/autolabel.
- Abstract(参考訳): 近年,3次元オープン語彙セマンティックセグメンテーションの手法が提案されている。
このようなメソッドは、シーンをテキスト記述を使用して実行時に与えられた任意のクラスに分割することができる。
本稿では,オープンボキャブラリパノプティックセグメンテーションのための最初のアルゴリズムについて,セマンティックセグメンテーションとインスタンスセグメンテーションを同時に行うことを提案する。
提案手法であるPVLFF(Panoptic Vision-Language Feature Fields)は,入力フレーム上の2次元インスタンスセグメントの提案から,コントラスト損失関数を用いて視覚言語特徴と階層的インスタンス特徴を共同学習する。
提案手法は,HyperSim,ScanNet,Replicaの3Dパノプティクスシステムと同等の性能を達成し,セマンティックセグメンテーションの観点から現在の3Dオープン語彙システムより優れている。
また,モデルアーキテクチャの有効性を示すために,手法を改良する。
私たちのコードはhttps://github.com/ethz-asl/autolabelで利用可能です。
関連論文リスト
- UniM-OV3D: Uni-Modality Open-Vocabulary 3D Scene Understanding with Fine-Grained Feature Representation [46.998093729036334]
我々は,UniM-OV3Dという,マルチモーダルなオープン・ボキャブラリ・シーン理解ネットワークを提案する。
ポイントクラウドのグローバル機能とローカル機能をよりよく統合するために、階層的なポイントクラウド機能抽出モジュールを設計する。
キャプションからの粗い点列表現の学習を容易にするために,階層型3Dキャプションペアの利用を提案する。
論文 参考訳(メタデータ) (2024-01-21T04:13:58Z) - SAI3D: Segment Any Instance in 3D Scenes [68.57002591841034]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。
我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。
ScanNet、Matterport3D、さらに難しいScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2023-12-17T09:05:47Z) - ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文 参考訳(メタデータ) (2023-11-29T20:30:18Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - Weakly Supervised 3D Open-vocabulary Segmentation [104.07740741126119]
学習済み基礎モデルCLIPとDINOを弱教師付きで活用することで,3次元オープン語彙セグメンテーションの課題に取り組む。
我々はCLIPとDINOのオープン語彙多様知識とオブジェクト推論能力をニューラルラディアンス場(NeRF)に蒸留する。
提案手法の特筆すべき点は,基礎モデルや蒸留プロセスに手動セグメンテーションアノテーションを必要としない点である。
論文 参考訳(メタデータ) (2023-05-23T14:16:49Z) - Neural Implicit Vision-Language Feature Fields [40.248658511361015]
ゼロショットボリュームのオープン語彙セマンティックシーンセグメンテーション法を提案する。
本手法は,視覚言語モデルからニューラル暗黙表現に画像特徴を融合させることができるという知見に基づいている。
本研究では,本手法が実世界のノイズの多いデータ上で動作し,テキストのプロンプトに適応してリアルタイムにリアルタイムにリアルタイムに動作可能であることを示す。
論文 参考訳(メタデータ) (2023-03-20T09:38:09Z) - OpenScene: 3D Scene Understanding with Open Vocabularies [73.1411930820683]
従来の3Dシーン理解アプローチは、単一のタスクのためにモデルをトレーニングするためのラベル付き3Dデータセットに依存している。
私たちは,CLIP機能空間にテキストと画像ピクセルを埋め込んだ3次元シーンポイントの高密度な特徴をモデルが予測する代替手法OpenSceneを提案する。
このゼロショットアプローチは、タスク非依存のトレーニングとオープン語彙クエリを可能にする。
論文 参考訳(メタデータ) (2022-11-28T18:58:36Z) - Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。
本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文 参考訳(メタデータ) (2021-12-02T13:06:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。