論文の概要: NamedMask: Distilling Segmenters from Complementary Foundation Models
- arxiv url: http://arxiv.org/abs/2209.11228v1
- Date: Thu, 22 Sep 2022 17:59:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 12:41:43.161647
- Title: NamedMask: Distilling Segmenters from Complementary Foundation Models
- Title(参考訳): NamedMask: 補完ファンデーションモデルからセグメントを蒸留する
- Authors: Gyungin Shin, Weidi Xie, Samuel Albanie
- Abstract要約: 2つの基礎モデルの相補的強度を蒸留してセグメンタを構築する。
私たちのメソッドはnamedMaskと呼ばれ、CLIPを使って画像のカテゴリ固有のアーカイブを構築することから始まります。
精細化マスクの高精細化により,単一オブジェクトと複数オブジェクトの両方のイメージに対して,標準的なセグメンテーションアーキテクチャが印象的なセグメンテーション機能を実現することを示す。
- 参考スコア(独自算出の注目度): 44.388120096898554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of this work is to segment and name regions of images without access
to pixel-level labels during training. To tackle this task, we construct
segmenters by distilling the complementary strengths of two foundation models.
The first, CLIP (Radford et al. 2021), exhibits the ability to assign names to
image content but lacks an accessible representation of object structure. The
second, DINO (Caron et al. 2021), captures the spatial extent of objects but
has no knowledge of object names. Our method, termed NamedMask, begins by using
CLIP to construct category-specific archives of images. These images are
pseudo-labelled with a category-agnostic salient object detector bootstrapped
from DINO, then refined by category-specific segmenters using the CLIP archive
labels. Thanks to the high quality of the refined masks, we show that a
standard segmentation architecture trained on these archives with appropriate
data augmentation achieves impressive semantic segmentation abilities for both
single-object and multi-object images. As a result, our proposed NamedMask
performs favourably against a range of prior work on five benchmarks including
the VOC2012, COCO and large-scale ImageNet-S datasets.
- Abstract(参考訳): この研究の目的は、トレーニング中にピクセルレベルのラベルにアクセスすることなく、画像の領域を分割して名前付けることである。
この課題に対処するために,2つの基礎モデルの相補的強度を蒸留してセグメンタを構築する。
最初のCLIP(Radford et al. 2021)では、画像コンテンツに名前を割り当てる機能があるが、アクセス可能なオブジェクト構造の表現がない。
二つ目はDINO(Caron et al. 2021)で、オブジェクトの空間的範囲を捉えているが、オブジェクト名の知識は持っていない。
本手法は,クリップを用いて画像のカテゴリ別アーカイブを構築することから始まる。
これらの画像は、DINOからブートストラップされたカテゴリ非依存のサルエント物体検出器で擬似ラベリングされ、CLIPアーカイブラベルを使用してカテゴリ特異的セグメンタによって精製される。
改良マスクの高品質化により,これらのアーカイブ上で適切なデータ拡張で訓練された標準的なセグメンテーションアーキテクチャが,単一オブジェクトおよび複数オブジェクトの画像に対して印象的なセグメンテーション能力を実現することを示す。
その結果,提案した NamedMask は,VOC2012,COCO,大規模画像Net-S データセットを含む5つのベンチマークにおいて,先行研究に対して好意的に動作することがわかった。
関連論文リスト
- Towards Open-Vocabulary Semantic Segmentation Without Semantic Labels [53.8817160001038]
画素レベルの理解にCLIP画像エンコーダを適用する新しい手法であるPixelCLIPを提案する。
セマンティックラベルを使わずにマスクを活用するという課題に対処するため,オンラインクラスタリングアルゴリズムを考案した。
PixelCLIPはCLIPよりも大幅にパフォーマンスが向上し、キャプション管理手法に比べて競合性が向上した。
論文 参考訳(メタデータ) (2024-09-30T01:13:03Z) - Synthetic Instance Segmentation from Semantic Image Segmentation Masks [15.477053085267404]
我々は、Synthetic Instance(SISeg)と呼ばれる新しいパラダイムを提案する。
SISegインスタンスセグメンテーションの結果は、既存のセマンティックセグメンテーションモデルによって生成されたイメージマスクを活用する。
言い換えれば、提案モデルは余分な人力や高い計算コストを必要としない。
論文 参考訳(メタデータ) (2023-08-02T05:13:02Z) - Referring Camouflaged Object Detection [97.90911862979355]
Ref-COD は、特定のカモフラージュされたオブジェクトを、サルエントターゲットオブジェクトによる参照画像の小さなセットに基づいて分割することを目的としている。
R2C7Kと呼ばれる大規模なデータセットは、実世界のシナリオで64のオブジェクトカテゴリをカバーする7Kイメージで構成されています。
論文 参考訳(メタデータ) (2023-06-13T04:15:37Z) - What's in a Name? Beyond Class Indices for Image Recognition [28.02490526407716]
そこで本稿では,カテゴリの巨大語彙のみを先行情報として付与した画像に,クラス名を割り当てる視覚言語モデルを提案する。
非パラメトリックな手法を用いて画像間の有意義な関係を確立することにより、モデルが候補名のプールを自動的に絞り込むことができる。
本手法は,教師なし環境でのImageNetのベースラインを約50%改善する。
論文 参考訳(メタデータ) (2023-04-05T11:01:23Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - Discovering Object Masks with Transformers for Unsupervised Semantic
Segmentation [75.00151934315967]
MaskDistillは教師なしセマンティックセグメンテーションのための新しいフレームワークである。
我々のフレームワークは、低レベルの画像キューにラッチを付けず、オブジェクト中心のデータセットに限らない。
論文 参考訳(メタデータ) (2022-06-13T17:59:43Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。