論文の概要: Neural Implicit Vision-Language Feature Fields
- arxiv url: http://arxiv.org/abs/2303.10962v1
- Date: Mon, 20 Mar 2023 09:38:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 16:14:17.527374
- Title: Neural Implicit Vision-Language Feature Fields
- Title(参考訳): ニューラルインシシシト視覚-言語特徴場
- Authors: Kenneth Blomqvist, Francesco Milano, Jen Jen Chung, Lionel Ott, Roland
Siegwart
- Abstract要約: ゼロショットボリュームのオープン語彙セマンティックシーンセグメンテーション法を提案する。
本手法は,視覚言語モデルからニューラル暗黙表現に画像特徴を融合させることができるという知見に基づいている。
本研究では,本手法が実世界のノイズの多いデータ上で動作し,テキストのプロンプトに適応してリアルタイムにリアルタイムにリアルタイムに動作可能であることを示す。
- 参考スコア(独自算出の注目度): 40.248658511361015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, groundbreaking results have been presented on open-vocabulary
semantic image segmentation. Such methods segment each pixel in an image into
arbitrary categories provided at run-time in the form of text prompts, as
opposed to a fixed set of classes defined at training time. In this work, we
present a zero-shot volumetric open-vocabulary semantic scene segmentation
method. Our method builds on the insight that we can fuse image features from a
vision-language model into a neural implicit representation. We show that the
resulting feature field can be segmented into different classes by assigning
points to natural language text prompts. The implicit volumetric representation
enables us to segment the scene both in 3D and 2D by rendering feature maps
from any given viewpoint of the scene. We show that our method works on noisy
real-world data and can run in real-time on live sensor data dynamically
adjusting to text prompts. We also present quantitative comparisons on the
ScanNet dataset.
- Abstract(参考訳): 近年,open-vocabulary semantic image segmentation において画期的な結果が報告されている。
このような方法は、トレーニング時に定義された固定されたクラスセットとは対照的に、画像の各ピクセルをテキストプロンプト形式で実行時に提供される任意のカテゴリに分割する。
そこで本研究では,ゼロショットボリュームのセマンティクスシーンセグメンテーション法を提案する。
本手法は,視覚言語モデルから画像特徴をニューラルネットワークの暗黙的表現に融合できるという洞察に基づく。
その結果、自然言語テキストプロンプトにポイントを割り当てることで、機能フィールドを異なるクラスに分割できることを示す。
暗黙的なボリューム表現は、シーンの任意の視点からフィーチャーマップをレンダリングすることで、3dと2dの両方でシーンを分割できる。
提案手法は,雑音の多い実世界データ上で動作し,テキストプロンプトに動的に調整したライブセンサデータ上でリアルタイムに動作可能であることを示す。
また,scannetデータセットの定量的比較を行った。
関連論文リスト
- Self-supervised Learning of Neural Implicit Feature Fields for Camera Pose Refinement [32.335953514942474]
本稿では,3次元の高密度特徴場と2次元の特徴抽出器を併用してシーン表現を共同学習することを提案する。
暗黙の場に符号化された中間的幾何情報を活用するために、ボリュームレンダリングを通してシーンの基盤となる幾何学を学習し、特徴体を設計する。
次に、画像ベースの機能とレンダリングされたボリューム機能を調整することで、視覚的なローカライゼーションを実現する。
論文 参考訳(メタデータ) (2024-06-12T17:51:53Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Panoptic Vision-Language Feature Fields [27.209602602110916]
オープンボキャブラリパノプティックセグメンテーションのための第1のアルゴリズムを3次元シーンで提案する。
本アルゴリズムは,事前学習した2次元モデルから視覚言語の特徴を抽出することにより,シーンの意味的特徴場を学習する。
提案手法は,HyperSim, ScanNet, Replicaデータセット上の最先端のクローズドセット3Dシステムと同様のパノプティカルセグメンテーション性能を実現する。
論文 参考訳(メタデータ) (2023-09-11T13:41:27Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - What is Where by Looking: Weakly-Supervised Open-World Phrase-Grounding
without Text Inputs [82.93345261434943]
入力画像が与えられたら、そのオブジェクトを記述した画像とフレーズのバウンディングボックスを返します。
これは、入力画像内のオブジェクトがローカライゼーション機構のトレーニング中に遭遇しなかった可能性のあるオープンワールドパラダイム内で実現される。
本研究は, 弱教師付きセグメンテーションと句接頭辞を一般化し, 両領域の最先端技術として実証的に示す。
論文 参考訳(メタデータ) (2022-06-19T09:07:30Z) - Knowledge Mining with Scene Text for Fine-Grained Recognition [53.74297368412834]
本研究では,シーンテキスト画像の背景にある暗黙的な文脈知識をマイニングする,エンドツーエンドのトレーニング可能なネットワークを提案する。
我々は,KnowBertを用いて意味表現の関連知識を検索し,それを画像特徴と組み合わせ,きめ細かい分類を行う。
本手法は,3.72%のmAPと5.39%のmAPをそれぞれ上回っている。
論文 参考訳(メタデータ) (2022-03-27T05:54:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。