論文の概要: Self-Guided Open-Vocabulary Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2312.04539v1
- Date: Thu, 7 Dec 2023 18:55:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 13:33:38.988554
- Title: Self-Guided Open-Vocabulary Semantic Segmentation
- Title(参考訳): 自己誘導型オープンボカブラリーセマンティクスセグメンテーション
- Authors: Osman \"Ulger, Maksymilian Kulicki, Yuki Asano, Martin R. Oswald
- Abstract要約: VLM(Vision-Language Models)は、オープンな画像理解タスクのための有望なツールとして登場した。
オープン語彙セグメンテーションのためのSelf-Guided Semantic(Self-Seg)フレームワークを提案する。
クラス名を指定せずにオープン語彙セグメンテーションを行うため,Pascal VOC,ADE20K,CityScapesの最先端結果を得た。
- 参考スコア(独自算出の注目度): 14.403912198859722
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) have emerged as promising tools for open-ended
image understanding tasks, including open vocabulary segmentation. Yet, direct
application of such VLMs to segmentation is non-trivial, since VLMs are trained
with image-text pairs and naturally lack pixel-level granularity. Recent works
have made advancements in bridging this gap, often by leveraging the shared
image-text space in which the image and a provided text prompt are represented.
In this paper, we challenge the capabilities of VLMs further and tackle
open-vocabulary segmentation without the need for any textual input. To this
end, we propose a novel Self-Guided Semantic Segmentation (Self-Seg) framework.
Self-Seg is capable of automatically detecting relevant class names from
clustered BLIP embeddings and using these for accurate semantic segmentation.
In addition, we propose an LLM-based Open-Vocabulary Evaluator (LOVE) to
effectively assess predicted open-vocabulary class names. We achieve
state-of-the-art results on Pascal VOC, ADE20K and CityScapes for
open-vocabulary segmentation without given class names, as well as competitive
performance with methods where class names are given. All code and data will be
released.
- Abstract(参考訳): VLM(Vision-Language Models)は、オープン語彙セグメンテーションを含む、オープンな画像理解タスクのための有望なツールとして登場した。
しかし、VLMは画像テキストペアで訓練されており、ピクセルレベルの粒度を欠いているため、セグメント化への直接適用は簡単ではない。
最近の研究は、画像と提供されたテキストプロンプトが表現される共有画像テキスト空間を活用することで、このギャップを埋める進化を遂げている。
本稿では、VLMのさらなる機能に挑戦し、テキスト入力を必要とせずにオープン語彙セグメンテーションに取り組む。
そこで我々は,自己ガイド型セマンティックセマンティックセグメンテーション(Self-Seg)フレームワークを提案する。
Self-Segは、クラスタ化されたBLIP埋め込みから関連するクラス名を自動的に検出し、それらを正確なセマンティックセグメンテーションに使用することができる。
さらに,LLMに基づくオープン語彙評価器 (LOVE) を提案し,予測されたオープン語彙クラス名を効果的に評価する。
クラス名を指定せずにオープン語彙セグメンテーションを行うPascal VOC,ADE20K,CityScapesの最先端結果と,クラス名を付与する手法との競合性能について述べる。
すべてのコードとデータがリリースされる。
関連論文リスト
- Vocabulary-free Image Classification and Semantic Segmentation [71.78089106671581]
本稿では,Vocabulary-free Image Classification (VIC)タスクを導入する。これは,制約のない言語による意味空間から,既知の語彙を必要とせずに,入力画像にクラスを割り当てることを目的としている。
VICは、細かなカテゴリを含む数百万の概念を含む意味空間の広さのために、挑戦的である。
本稿では,事前学習された視覚言語モデルと外部データベースを利用した学習自由度手法CaSEDを提案する。
論文 参考訳(メタデータ) (2024-04-16T19:27:21Z) - Training-Free Semantic Segmentation via LLM-Supervision [37.9007813884699]
本稿では,大規模言語モデル(LLM)を用いたテキスト教師付きセマンティックセマンティックセマンティクスの新しいアプローチを提案する。
我々のメソッドは LLM から始まり、より正確なクラス表現のための詳細なサブクラスのセットを生成する。
次に、テキスト教師付きセマンティックセマンティックセマンティクスモデルを用いて、生成されたサブクラスをターゲットラベルとして適用する。
論文 参考訳(メタデータ) (2024-03-31T14:37:25Z) - TAG: Guidance-free Open-Vocabulary Semantic Segmentation [6.236890292833387]
本稿では,訓練を行うTAGを提案する。
ガイダンスフリーのオープン語彙セグメンテーション。
外部データベースからクラスラベルを取得し、新しいシナリオに適応するための柔軟性を提供する。
我々のTAGは、クラス名を指定せずに、オープン語彙セグメンテーションのためのPascalVOC、PascalContext、ADE20Kの最先端結果を得る。
論文 参考訳(メタデータ) (2024-03-17T12:49:02Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。
トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z) - Exploring Open-Vocabulary Semantic Segmentation without Human Labels [76.15862573035565]
我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。
ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。
提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T08:47:06Z) - What's in a Name? Beyond Class Indices for Image Recognition [28.02490526407716]
そこで本稿では,カテゴリの巨大語彙のみを先行情報として付与した画像に,クラス名を割り当てる視覚言語モデルを提案する。
非パラメトリックな手法を用いて画像間の有意義な関係を確立することにより、モデルが候補名のプールを自動的に絞り込むことができる。
本手法は,教師なし環境でのImageNetのベースラインを約50%改善する。
論文 参考訳(メタデータ) (2023-04-05T11:01:23Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。