論文の概要: NamedMask: Distilling Segmenters from Complementary Foundation Models
- arxiv url: http://arxiv.org/abs/2209.11228v1
- Date: Thu, 22 Sep 2022 17:59:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 12:41:43.161647
- Title: NamedMask: Distilling Segmenters from Complementary Foundation Models
- Title(参考訳): NamedMask: 補完ファンデーションモデルからセグメントを蒸留する
- Authors: Gyungin Shin, Weidi Xie, Samuel Albanie
- Abstract要約: 2つの基礎モデルの相補的強度を蒸留してセグメンタを構築する。
私たちのメソッドはnamedMaskと呼ばれ、CLIPを使って画像のカテゴリ固有のアーカイブを構築することから始まります。
精細化マスクの高精細化により,単一オブジェクトと複数オブジェクトの両方のイメージに対して,標準的なセグメンテーションアーキテクチャが印象的なセグメンテーション機能を実現することを示す。
- 参考スコア(独自算出の注目度): 44.388120096898554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of this work is to segment and name regions of images without access
to pixel-level labels during training. To tackle this task, we construct
segmenters by distilling the complementary strengths of two foundation models.
The first, CLIP (Radford et al. 2021), exhibits the ability to assign names to
image content but lacks an accessible representation of object structure. The
second, DINO (Caron et al. 2021), captures the spatial extent of objects but
has no knowledge of object names. Our method, termed NamedMask, begins by using
CLIP to construct category-specific archives of images. These images are
pseudo-labelled with a category-agnostic salient object detector bootstrapped
from DINO, then refined by category-specific segmenters using the CLIP archive
labels. Thanks to the high quality of the refined masks, we show that a
standard segmentation architecture trained on these archives with appropriate
data augmentation achieves impressive semantic segmentation abilities for both
single-object and multi-object images. As a result, our proposed NamedMask
performs favourably against a range of prior work on five benchmarks including
the VOC2012, COCO and large-scale ImageNet-S datasets.
- Abstract(参考訳): この研究の目的は、トレーニング中にピクセルレベルのラベルにアクセスすることなく、画像の領域を分割して名前付けることである。
この課題に対処するために,2つの基礎モデルの相補的強度を蒸留してセグメンタを構築する。
最初のCLIP(Radford et al. 2021)では、画像コンテンツに名前を割り当てる機能があるが、アクセス可能なオブジェクト構造の表現がない。
二つ目はDINO(Caron et al. 2021)で、オブジェクトの空間的範囲を捉えているが、オブジェクト名の知識は持っていない。
本手法は,クリップを用いて画像のカテゴリ別アーカイブを構築することから始まる。
これらの画像は、DINOからブートストラップされたカテゴリ非依存のサルエント物体検出器で擬似ラベリングされ、CLIPアーカイブラベルを使用してカテゴリ特異的セグメンタによって精製される。
改良マスクの高品質化により,これらのアーカイブ上で適切なデータ拡張で訓練された標準的なセグメンテーションアーキテクチャが,単一オブジェクトおよび複数オブジェクトの画像に対して印象的なセグメンテーション能力を実現することを示す。
その結果,提案した NamedMask は,VOC2012,COCO,大規模画像Net-S データセットを含む5つのベンチマークにおいて,先行研究に対して好意的に動作することがわかった。
関連論文リスト
- Referring Camouflaged Object Detection [97.90911862979355]
Ref-COD は、特定のカモフラージュされたオブジェクトを、サルエントターゲットオブジェクトによる参照画像の小さなセットに基づいて分割することを目的としている。
R2C7Kと呼ばれる大規模なデータセットは、実世界のシナリオで64のオブジェクトカテゴリをカバーする7Kイメージで構成されています。
論文 参考訳(メタデータ) (2023-06-13T04:15:37Z) - What's in a Name? Beyond Class Indices for Image Recognition [31.68225941659493]
本稿では,大規模かつ本質的に制約のないカテゴリの語彙のみを先行情報として与えられた画像にクラス名を割り当てる視覚言語モデルを提案する。
具体的には、データを反復的にクラスタリングし、内部のクラス名に投票することで、ImageNetのベースラインよりも約50%改善できることを示す。
論文 参考訳(メタデータ) (2023-04-05T11:01:23Z) - ISLE: A Framework for Image Level Semantic Segmentation Ensemble [5.137284292672375]
従来のセマンティックセグメンテーションネットワークは、最先端の予測品質に到達するために、大量のピクセル単位のアノテートラベルを必要とする。
クラスレベルで異なるセマンティックセグメンテーション手法のセットに「擬似ラベル」のアンサンブルを用いるISLEを提案する。
私たちはISLEの個々のコンポーネントよりも2.4%改善しています。
論文 参考訳(メタデータ) (2023-03-14T13:36:36Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - Discovering Object Masks with Transformers for Unsupervised Semantic
Segmentation [75.00151934315967]
MaskDistillは教師なしセマンティックセグメンテーションのための新しいフレームワークである。
我々のフレームワークは、低レベルの画像キューにラッチを付けず、オブジェクト中心のデータセットに限らない。
論文 参考訳(メタデータ) (2022-06-13T17:59:43Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z) - Semantic Segmentation In-the-Wild Without Seeing Any Segmentation
Examples [34.97652735163338]
本稿では,各オブジェクトに対するセマンティックセグメンテーションマスク作成のための新しいアプローチを提案する。
本手法は,画像に含まれるクラスカテゴリのイメージレベルラベルを入力として扱う。
このステージの出力は、教師付きメソッドが必要とする手動のピクセルレベルラベルの代わりに、ピクセルレベルの擬似ラベルを提供する。
論文 参考訳(メタデータ) (2021-12-06T17:32:38Z) - Open-World Entity Segmentation [70.41548013910402]
我々は、意味圏ラベルを考慮せずに、画像内のすべての視覚的エンティティをセグメント化することを目的として、Entity(ES)と呼ばれる新しいイメージセグメンテーションタスクを導入する。
意味的に意味のある全てのセグメントは、等しく分類なしのエンティティとして扱われる。
1) 複数のデータセットをマージしてラベルの衝突を解決することなく大規模なトレーニングセットを形成すること、2) 1つのデータセットでトレーニングされたモデルが、目に見えないドメインを持つ他のデータセットに対して、例外的にうまく一般化することができること、である。
論文 参考訳(メタデータ) (2021-07-29T17:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。