論文の概要: TAG: Guidance-free Open-Vocabulary Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2403.11197v1
- Date: Sun, 17 Mar 2024 12:49:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 18:06:05.334349
- Title: TAG: Guidance-free Open-Vocabulary Semantic Segmentation
- Title(参考訳): TAG: ガイダンスなしオープン語彙セマンティックセマンティックセマンティックセグメンテーション
- Authors: Yasufumi Kawano, Yoshimitsu Aoki,
- Abstract要約: 本稿では,訓練を行うTAGを提案する。
ガイダンスフリーのオープン語彙セグメンテーション。
外部データベースからクラスラベルを取得し、新しいシナリオに適応するための柔軟性を提供する。
我々のTAGは、クラス名を指定せずに、オープン語彙セグメンテーションのためのPascalVOC、PascalContext、ADE20Kの最先端結果を得る。
- 参考スコア(独自算出の注目度): 6.236890292833387
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic segmentation is a crucial task in computer vision, where each pixel in an image is classified into a category. However, traditional methods face significant challenges, including the need for pixel-level annotations and extensive training. Furthermore, because supervised learning uses a limited set of predefined categories, models typically struggle with rare classes and cannot recognize new ones. Unsupervised and open-vocabulary segmentation, proposed to tackle these issues, faces challenges, including the inability to assign specific class labels to clusters and the necessity of user-provided text queries for guidance. In this context, we propose a novel approach, TAG which achieves Training, Annotation, and Guidance-free open-vocabulary semantic segmentation. TAG utilizes pre-trained models such as CLIP and DINO to segment images into meaningful categories without additional training or dense annotations. It retrieves class labels from an external database, providing flexibility to adapt to new scenarios. Our TAG achieves state-of-the-art results on PascalVOC, PascalContext and ADE20K for open-vocabulary segmentation without given class names, i.e. improvement of +15.3 mIoU on PascalVOC. All code and data will be released at https://github.com/Valkyrja3607/TAG.
- Abstract(参考訳): セマンティックセグメンテーションはコンピュータビジョンにおいて重要な課題であり、画像の各ピクセルはカテゴリに分類される。
しかし、従来の手法では、ピクセルレベルのアノテーションや広範なトレーニングの必要性など、重大な課題に直面している。
さらに、教師付き学習は定義済みのカテゴリの限られたセットを使用するため、モデルは通常希少なクラスと競合し、新しいクラスを認識できない。
これらの問題に取り組むために提案された、教師なしでオープンな語彙のセグメンテーションは、クラスタに特定のクラスラベルを割り当てることができないことや、ガイダンスのためのユーザが提供するテキストクエリの必要性など、課題に直面している。
この文脈では、トレーニング、アノテーション、ガイダンスフリーなオープン語彙セマンティックセマンティックセマンティクスを実現するための新しいアプローチであるTAGを提案する。
TAGは、CLIPやDINOといった事前訓練されたモデルを使用して、追加のトレーニングや高密度アノテーションなしで、イメージを意味のあるカテゴリに分割する。
外部データベースからクラスラベルを取得し、新しいシナリオに適応するための柔軟性を提供する。
我々のTAGはPascalVOC, PascalContext, ADE20Kに対して, クラス名のないオープン語彙セグメンテーション, すなわち PascalVOC における +15.3 mIoU の改善を実現する。
すべてのコードとデータはhttps://github.com/Valkyrja3607/TAGで公開される。
関連論文リスト
- SOHES: Self-supervised Open-world Hierarchical Entity Segmentation [82.45303116125021]
この研究は、人間のアノテーションを必要としない新しいアプローチであるSOHES(Self-supervised Open World Hierarchical Entities)を提示する。
視覚的特徴クラスタリングにより高品質な擬似ラベルを生成し,教師同士の学習によって擬似ラベルの雑音を補正する。
学習データとして生画像を用いることにより,自己監督型オープンワールドセグメンテーションにおける前例のない性能を実現する。
論文 参考訳(メタデータ) (2024-04-18T17:59:46Z) - Vocabulary-free Image Classification and Semantic Segmentation [71.78089106671581]
本稿では,Vocabulary-free Image Classification (VIC)タスクを導入する。これは,制約のない言語による意味空間から,既知の語彙を必要とせずに,入力画像にクラスを割り当てることを目的としている。
VICは、細かなカテゴリを含む数百万の概念を含む意味空間の広さのために、挑戦的である。
本稿では,事前学習された視覚言語モデルと外部データベースを利用した学習自由度手法CaSEDを提案する。
論文 参考訳(メタデータ) (2024-04-16T19:27:21Z) - GET: Unlocking the Multi-modal Potential of CLIP for Generalized Category Discovery [51.01145921226882]
テキスト埋め込み合成器(TES)を提案する。
提案手法は,CLIPのマルチモーダルポテンシャルを解放し,すべてのGCDベンチマークにおいて,ベースライン手法よりも大きなマージンで性能を向上する。
論文 参考訳(メタデータ) (2024-03-15T02:40:13Z) - Auto-Vocabulary Semantic Segmentation [13.410217680999462]
textitAuto-Vocabulary Semantics (AVS)を導入する。
本フレームワークは,拡張BLIP埋め込みを用いて,関連クラス名を自律的に識別する。
提案手法は,PASCAL VOCやContext,ADE20K,Cityscapes for AVSなどのデータセットに新たなベンチマークを設定する。
論文 参考訳(メタデータ) (2023-12-07T18:55:52Z) - Shatter and Gather: Learning Referring Image Segmentation with Text
Supervision [52.46081425504072]
入力画像中の意味的エンティティを検出し,テキストクエリに関連するエンティティを組み合わせて参照者のマスクを予測するモデルを提案する。
提案手法は,イメージセグメンテーションを参照するための4つの公開ベンチマークで評価され,既存のタスクと最近の全てのベンチマークにおけるオープン語彙セグメンテーションモデルよりも明らかに優れていた。
論文 参考訳(メタデータ) (2023-08-29T15:39:15Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - Semantic Segmentation In-the-Wild Without Seeing Any Segmentation
Examples [34.97652735163338]
本稿では,各オブジェクトに対するセマンティックセグメンテーションマスク作成のための新しいアプローチを提案する。
本手法は,画像に含まれるクラスカテゴリのイメージレベルラベルを入力として扱う。
このステージの出力は、教師付きメソッドが必要とする手動のピクセルレベルラベルの代わりに、ピクセルレベルの擬似ラベルを提供する。
論文 参考訳(メタデータ) (2021-12-06T17:32:38Z) - A Closer Look at Self-training for Zero-Label Semantic Segmentation [53.4488444382874]
トレーニング中に見られないクラスをセグメント化できることは、ディープラーニングにおいて重要な技術的課題です。
事前のゼロラベルセマンティクスセグメンテーションは、ビジュアル・セマンティクスの埋め込みや生成モデルを学ぶことによってこのタスクにアプローチする。
本研究では,同一画像の異なる増分から生じる擬似ラベルの交点を取り出し,ノイズの多い擬似ラベルをフィルタリングする整合性正規化器を提案する。
論文 参考訳(メタデータ) (2021-04-21T14:34:33Z) - PCAMs: Weakly Supervised Semantic Segmentation Using Point Supervision [12.284208932393073]
本稿では,ある点レベルのアノテーションが与えられた画像から意味的セグメンテーションを生成する新しい手法を提案する。
提案するCNNは,通常,地上の真理ラベルの代わりに擬似ラベルを用いて完全に教師される。
提案手法は,PASCAL VOC 2012 データセットを引用した PASCAL VOC 2012 のセマンティックセマンティックセマンティフィケーションのための技術結果の状態を達成し,より強いバウンディングボックスやリスグル管理のための技術手法よりも優れていた。
論文 参考訳(メタデータ) (2020-07-10T21:25:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。