論文の概要: Auto-Vocabulary Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2312.04539v2
- Date: Wed, 20 Mar 2024 16:11:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 22:08:02.166204
- Title: Auto-Vocabulary Semantic Segmentation
- Title(参考訳): 自動語彙セマンティックセマンティックセグメンテーション
- Authors: Osman Ülger, Maksymilian Kulicki, Yuki Asano, Martin R. Oswald,
- Abstract要約: textitAuto-Vocabulary Semantics (AVS)を導入する。
本フレームワークは,拡張BLIP埋め込みを用いて,関連クラス名を自律的に識別する。
提案手法は,PASCAL VOCやContext,ADE20K,Cityscapes for AVSなどのデータセットに新たなベンチマークを設定する。
- 参考スコア(独自算出の注目度): 13.410217680999462
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-ended image understanding tasks gained significant attention from the research community, particularly with the emergence of Vision-Language Models. Open-Vocabulary Segmentation (OVS) methods are capable of performing semantic segmentation without relying on a fixed vocabulary, and in some cases, they operate without the need for training or fine-tuning. However, OVS methods typically require users to specify the vocabulary based on the task or dataset at hand. In this paper, we introduce \textit{Auto-Vocabulary Semantic Segmentation (AVS)}, advancing open-ended image understanding by eliminating the necessity to predefine object categories for segmentation. Our approach, \ours, presents a framework that autonomously identifies relevant class names using enhanced BLIP embeddings, which are utilized for segmentation afterwards. Given that open-ended object category predictions cannot be directly compared with a fixed ground truth, we develop a Large Language Model-based Auto-Vocabulary Evaluator (LAVE) to efficiently evaluate the automatically generated class names and their corresponding segments. Our method sets new benchmarks on datasets such as PASCAL VOC and Context, ADE20K, and Cityscapes for AVS and showcases competitive performance to OVS methods that require specified class names.
- Abstract(参考訳): オープンエンドの画像理解タスクは、特にビジョン・ランゲージ・モデルの出現によって、研究コミュニティから大きな注目を集めた。
Open-Vocabulary Segmentation (OVS)メソッドは、固定語彙に頼ることなくセマンティックセグメンテーションを実行することができる。
しかし、OVSメソッドは通常、ユーザが手元にあるタスクやデータセットに基づいて語彙を指定する必要がある。
本稿では, セグメンテーションのための対象カテゴリを事前に定義する必要性を排除し, オープンエンド画像理解を推進すべく, AVS(textit{Auto-Vocabulary Semantic Segmentation)を導入する。
提案手法は,拡張BLIP埋め込みを用いて関連クラス名を自律的に識別し,セグメンテーションに利用するためのフレームワークである。
オープンな対象カテゴリーの予測が固定された真実と直接比較できないことを考慮し、自動生成されたクラス名とその対応するセグメントを効率的に評価するLarge Language Model-based Auto-Vocabulary Evaluator (LAVE) を開発した。
提案手法は,PASCAL VOCやContext,ADE20K,Cityscapes for AVSなどのデータセットに新たなベンチマークを設定し,特定のクラス名を必要とするOVSメソッドと競合する性能を示す。
関連論文リスト
- Vocabulary-free Image Classification and Semantic Segmentation [71.78089106671581]
本稿では,Vocabulary-free Image Classification (VIC)タスクを導入する。これは,制約のない言語による意味空間から,既知の語彙を必要とせずに,入力画像にクラスを割り当てることを目的としている。
VICは、細かなカテゴリを含む数百万の概念を含む意味空間の広さのために、挑戦的である。
本稿では,事前学習された視覚言語モデルと外部データベースを利用した学習自由度手法CaSEDを提案する。
論文 参考訳(メタデータ) (2024-04-16T19:27:21Z) - Training-Free Semantic Segmentation via LLM-Supervision [37.9007813884699]
本稿では,大規模言語モデル(LLM)を用いたテキスト教師付きセマンティックセマンティックセマンティクスの新しいアプローチを提案する。
我々のメソッドは LLM から始まり、より正確なクラス表現のための詳細なサブクラスのセットを生成する。
次に、テキスト教師付きセマンティックセマンティックセマンティクスモデルを用いて、生成されたサブクラスをターゲットラベルとして適用する。
論文 参考訳(メタデータ) (2024-03-31T14:37:25Z) - TAG: Guidance-free Open-Vocabulary Semantic Segmentation [6.236890292833387]
本稿では,訓練を行うTAGを提案する。
ガイダンスフリーのオープン語彙セグメンテーション。
外部データベースからクラスラベルを取得し、新しいシナリオに適応するための柔軟性を提供する。
我々のTAGは、クラス名を指定せずに、オープン語彙セグメンテーションのためのPascalVOC、PascalContext、ADE20Kの最先端結果を得る。
論文 参考訳(メタデータ) (2024-03-17T12:49:02Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。
トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z) - Exploring Open-Vocabulary Semantic Segmentation without Human Labels [76.15862573035565]
我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。
ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。
提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T08:47:06Z) - What's in a Name? Beyond Class Indices for Image Recognition [28.02490526407716]
そこで本稿では,カテゴリの巨大語彙のみを先行情報として付与した画像に,クラス名を割り当てる視覚言語モデルを提案する。
非パラメトリックな手法を用いて画像間の有意義な関係を確立することにより、モデルが候補名のプールを自動的に絞り込むことができる。
本手法は,教師なし環境でのImageNetのベースラインを約50%改善する。
論文 参考訳(メタデータ) (2023-04-05T11:01:23Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。