論文の概要: Auto-Vocabulary Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2312.04539v3
- Date: Wed, 12 Mar 2025 12:39:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:36:09.119128
- Title: Auto-Vocabulary Semantic Segmentation
- Title(参考訳): 自動語彙セマンティックセマンティックセグメンテーション
- Authors: Osman Ülger, Maksymilian Kulicki, Yuki Asano, Martin R. Oswald,
- Abstract要約: Open-Vocabulary (OVS) メソッドは、固定語彙に頼ることなくセマンティックセグメンテーションを実行できる。
本稿では,自動語彙セマンティック(AVS, Auto-Vocabulary Semantic)を提案する。
我々のアプローチであるAutoSegは、意味的に強化されたBLIP埋め込みを使用して関連するクラス名を自律的に識別し、その後セグメント化するフレームワークを提案する。
- 参考スコア(独自算出の注目度): 13.410217680999462
- License:
- Abstract: Open-Vocabulary Segmentation (OVS) methods are capable of performing semantic segmentation without relying on a fixed vocabulary, and in some cases, without training or fine-tuning. However, OVS methods typically require a human in the loop to specify the vocabulary based on the task or dataset at hand. In this paper, we introduce Auto-Vocabulary Semantic Segmentation (AVS), advancing open-ended image understanding by eliminating the necessity to predefine object categories for segmentation. Our approach, AutoSeg, presents a framework that autonomously identifies relevant class names using semantically enhanced BLIP embeddings and segments them afterwards. Given that open-ended object category predictions cannot be directly compared with a fixed ground truth, we develop a Large Language Model-based Auto-Vocabulary Evaluator (LAVE) to efficiently evaluate the automatically generated classes and their corresponding segments. With AVS, our method sets new benchmarks on datasets PASCAL VOC, Context, ADE20K, and Cityscapes, while showing competitive performance to OVS methods that require specified class names.
- Abstract(参考訳): Open-Vocabulary Segmentation (OVS)メソッドは、固定語彙に頼ることなくセマンティックセグメンテーションを実行できる。
しかしながら、OVSメソッドは通常、手元にあるタスクやデータセットに基づいて語彙を指定するために、ループ内の人間を必要とします。
本稿では,自動語彙セマンティックセマンティックセマンティックセマンティフィケーション(AVS)を導入し,セマンティフィケーションのための対象カテゴリを事前に定義する必要をなくし,オープンエンドイメージ理解を促進する。
我々のアプローチであるAutoSegは、意味的に強化されたBLIP埋め込みを使用して関連するクラス名を自律的に識別し、その後セグメント化するフレームワークを提案する。
オープンな対象カテゴリーの予測が固定基底真理と直接比較できないことを考慮し、自動生成されたクラスとその対応するセグメントを効率的に評価するLarge Language Model-based Auto-Vocabulary Evaluator (LAVE) を開発した。
AVSでは、PASCAL VOC、Context、ADE20K、Cityscapesのデータセットに新しいベンチマークを設定し、特定のクラス名を必要とするOVSメソッドと競合する性能を示す。
関連論文リスト
- From Open-Vocabulary to Vocabulary-Free Semantic Segmentation [78.62232202171919]
オープン語彙セマンティックセグメンテーションにより、モデルはトレーニングデータ以外の新しいオブジェクトカテゴリを識別できる。
現在のアプローチは依然として入力として手動で指定されたクラス名に依存しており、現実世界のアプリケーションに固有のボトルネックを生み出している。
この研究は、定義済みのクラス語彙を必要としない、語彙自由セマンティックパイプラインを提案する。
論文 参考訳(メタデータ) (2025-02-17T15:17:08Z) - LMSeg: Unleashing the Power of Large-Scale Models for Open-Vocabulary Semantic Segmentation [16.864086165056698]
既存のオープン語彙アプローチでは、CLIPなどのビジョン言語モデルを活用して、大規模なビジョン言語データセットの事前トレーニングを通じて取得したリッチなセマンティック機能と視覚機能を整合させる。
本稿では,複数の大規模モデルを活用して,より細かい視覚的特徴と豊かな言語的特徴との整合性を高めることで問題を緩和することを提案する。
提案手法は,すべての主要な開語彙セグメンテーションベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-30T05:49:42Z) - Vocabulary-free Image Classification and Semantic Segmentation [71.78089106671581]
本稿では,Vocabulary-free Image Classification (VIC)タスクを導入する。これは,制約のない言語による意味空間から,既知の語彙を必要とせずに,入力画像にクラスを割り当てることを目的としている。
VICは、細かなカテゴリを含む数百万の概念を含む意味空間の広さのために、挑戦的である。
本稿では,事前学習された視覚言語モデルと外部データベースを利用した学習自由度手法CaSEDを提案する。
論文 参考訳(メタデータ) (2024-04-16T19:27:21Z) - TAG: Guidance-free Open-Vocabulary Semantic Segmentation [6.236890292833387]
本稿では,訓練を行うTAGを提案する。
ガイダンスフリーのオープン語彙セグメンテーション。
外部データベースからクラスラベルを取得し、新しいシナリオに適応するための柔軟性を提供する。
我々のTAGは、クラス名を指定せずに、オープン語彙セグメンテーションのためのPascalVOC、PascalContext、ADE20Kの最先端結果を得る。
論文 参考訳(メタデータ) (2024-03-17T12:49:02Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。
トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z) - What's in a Name? Beyond Class Indices for Image Recognition [28.02490526407716]
そこで本稿では,カテゴリの巨大語彙のみを先行情報として付与した画像に,クラス名を割り当てる視覚言語モデルを提案する。
非パラメトリックな手法を用いて画像間の有意義な関係を確立することにより、モデルが候補名のプールを自動的に絞り込むことができる。
本手法は,教師なし環境でのImageNetのベースラインを約50%改善する。
論文 参考訳(メタデータ) (2023-04-05T11:01:23Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。