Fugu-MT 論文翻訳(概要): NamedMask: Distilling Segmenters from Complementary Foundation Models

論文の概要: NamedMask: Distilling Segmenters from Complementary Foundation Models

arxiv url: http://arxiv.org/abs/2209.11228v1
Date: Thu, 22 Sep 2022 17:59:55 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-23 12:41:43.161647
Title: NamedMask: Distilling Segmenters from Complementary Foundation Models
Title（参考訳）: NamedMask: 補完ファンデーションモデルからセグメントを蒸留する
Authors: Gyungin Shin, Weidi Xie, Samuel Albanie
Abstract要約: 2つの基礎モデルの相補的強度を蒸留してセグメンタを構築する。私たちのメソッドはnamedMaskと呼ばれ、CLIPを使って画像のカテゴリ固有のアーカイブを構築することから始まります。精細化マスクの高精細化により,単一オブジェクトと複数オブジェクトの両方のイメージに対して,標準的なセグメンテーションアーキテクチャが印象的なセグメンテーション機能を実現することを示す。
参考スコア（独自算出の注目度）: 44.388120096898554
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The goal of this work is to segment and name regions of images without access to pixel-level labels during training. To tackle this task, we construct segmenters by distilling the complementary strengths of two foundation models. The first, CLIP (Radford et al. 2021), exhibits the ability to assign names to image content but lacks an accessible representation of object structure. The second, DINO (Caron et al. 2021), captures the spatial extent of objects but has no knowledge of object names. Our method, termed NamedMask, begins by using CLIP to construct category-specific archives of images. These images are pseudo-labelled with a category-agnostic salient object detector bootstrapped from DINO, then refined by category-specific segmenters using the CLIP archive labels. Thanks to the high quality of the refined masks, we show that a standard segmentation architecture trained on these archives with appropriate data augmentation achieves impressive semantic segmentation abilities for both single-object and multi-object images. As a result, our proposed NamedMask performs favourably against a range of prior work on five benchmarks including the VOC2012, COCO and large-scale ImageNet-S datasets.
Abstract（参考訳）: この研究の目的は、トレーニング中にピクセルレベルのラベルにアクセスすることなく、画像の領域を分割して名前付けることである。この課題に対処するために,2つの基礎モデルの相補的強度を蒸留してセグメンタを構築する。最初のCLIP(Radford et al. 2021)では、画像コンテンツに名前を割り当てる機能があるが、アクセス可能なオブジェクト構造の表現がない。二つ目はDINO(Caron et al. 2021)で、オブジェクトの空間的範囲を捉えているが、オブジェクト名の知識は持っていない。本手法は,クリップを用いて画像のカテゴリ別アーカイブを構築することから始まる。これらの画像は、DINOからブートストラップされたカテゴリ非依存のサルエント物体検出器で擬似ラベリングされ、CLIPアーカイブラベルを使用してカテゴリ特異的セグメンタによって精製される。改良マスクの高品質化により,これらのアーカイブ上で適切なデータ拡張で訓練された標準的なセグメンテーションアーキテクチャが,単一オブジェクトおよび複数オブジェクトの画像に対して印象的なセグメンテーション能力を実現することを示す。その結果,提案した NamedMask は,VOC2012,COCO,大規模画像Net-S データセットを含む5つのベンチマークにおいて,先行研究に対して好意的に動作することがわかった。

関連論文リスト

LarvSeg: Exploring Image Classification Data For Large Vocabulary Semantic Segmentation via Category-wise Attentive Classifier [38.75685568624425]
本稿ではLarvSegと呼ばれる新しい大語彙セマンティックセマンティックセマンティクスフレームワークを提案する。初めて、ImageNet21Kの助けを借りて、21Kカテゴリのセマンティックセマンティックセマンティックセマンティクスモデルを提供する。
論文参考訳（メタデータ） (2025-01-12T16:22:17Z)
Towards Open-Vocabulary Semantic Segmentation Without Semantic Labels [53.8817160001038]
画素レベルの理解にCLIP画像エンコーダを適用する新しい手法であるPixelCLIPを提案する。セマンティックラベルを使わずにマスクを活用するという課題に対処するため,オンラインクラスタリングアルゴリズムを考案した。 PixelCLIPはCLIPよりも大幅にパフォーマンスが向上し、キャプション管理手法に比べて競合性が向上した。
論文参考訳（メタデータ） (2024-09-30T01:13:03Z)
Synthetic Instance Segmentation from Semantic Image Segmentation Masks [15.477053085267404]
我々は、Synthetic Instance(SISeg)と呼ばれる新しいパラダイムを提案する。 SISegインスタンスセグメンテーションの結果は、既存のセマンティックセグメンテーションモデルによって生成されたイメージマスクを活用する。言い換えれば、提案モデルは余分な人力や高い計算コストを必要としない。
論文参考訳（メタデータ） (2023-08-02T05:13:02Z)
Referring Camouflaged Object Detection [97.90911862979355]
Ref-COD は、特定のカモフラージュされたオブジェクトを、サルエントターゲットオブジェクトによる参照画像の小さなセットに基づいて分割することを目的としている。 R2C7Kと呼ばれる大規模なデータセットは、実世界のシナリオで64のオブジェクトカテゴリをカバーする7Kイメージで構成されています。
論文参考訳（メタデータ） (2023-06-13T04:15:37Z)
What's in a Name? Beyond Class Indices for Image Recognition [28.02490526407716]
そこで本稿では,カテゴリの巨大語彙のみを先行情報として付与した画像に,クラス名を割り当てる視覚言語モデルを提案する。非パラメトリックな手法を用いて画像間の有意義な関係を確立することにより、モデルが候補名のプールを自動的に絞り込むことができる。本手法は,教師なし環境でのImageNetのベースラインを約50%改善する。
論文参考訳（メタデータ） (2023-04-05T11:01:23Z)
Open-world Semantic Segmentation via Contrasting and Clustering Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文参考訳（メタデータ） (2022-07-18T09:20:04Z)
Discovering Object Masks with Transformers for Unsupervised Semantic Segmentation [75.00151934315967]
MaskDistillは教師なしセマンティックセグメンテーションのための新しいフレームワークである。我々のフレームワークは、低レベルの画像キューにラッチを付けず、オブジェクト中心のデータセットに限らない。
論文参考訳（メタデータ） (2022-06-13T17:59:43Z)
A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文参考訳（メタデータ） (2021-12-29T18:56:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。