論文の概要: Diffuse, Attend, and Segment: Unsupervised Zero-Shot Segmentation using Stable Diffusion
- arxiv url: http://arxiv.org/abs/2308.12469v3
- Date: Tue, 2 Apr 2024 17:40:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 13:22:09.670672
- Title: Diffuse, Attend, and Segment: Unsupervised Zero-Shot Segmentation using Stable Diffusion
- Title(参考訳): Diffuse, Attend, Segment: 安定拡散を用いた教師なしゼロショットセグメンテーション
- Authors: Junjiao Tian, Lavisha Aggarwal, Andrea Colaco, Zsolt Kira, Mar Gonzalez-Franco,
- Abstract要約: アノテーションを使わずに任意のものをゼロショットでセグメント化できるモデルを提案する。
注意マップ間のKLのばらつきを計測し,それらを有効なセグメンテーションマスクにマージする,シンプルで効果的な反復的マージ手法を提案する。
COCO-Stuff-27では,従来の教師なしゼロショットSOTA法を26%,IoU平均17%で上回っている。
- 参考スコア(独自算出の注目度): 24.02235805999193
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Producing quality segmentation masks for images is a fundamental problem in computer vision. Recent research has explored large-scale supervised training to enable zero-shot segmentation on virtually any image style and unsupervised training to enable segmentation without dense annotations. However, constructing a model capable of segmenting anything in a zero-shot manner without any annotations is still challenging. In this paper, we propose to utilize the self-attention layers in stable diffusion models to achieve this goal because the pre-trained stable diffusion model has learned inherent concepts of objects within its attention layers. Specifically, we introduce a simple yet effective iterative merging process based on measuring KL divergence among attention maps to merge them into valid segmentation masks. The proposed method does not require any training or language dependency to extract quality segmentation for any images. On COCO-Stuff-27, our method surpasses the prior unsupervised zero-shot SOTA method by an absolute 26% in pixel accuracy and 17% in mean IoU. The project page is at \url{https://sites.google.com/view/diffseg/home}.
- Abstract(参考訳): 画像の品質セグメンテーションマスクの作成は、コンピュータビジョンの基本的な問題である。
近年の研究では、画像スタイルのゼロショットセグメンテーションを可能にするための大規模教師あり訓練と、濃密なアノテーションを使わずにセグメンテーションを可能にする教師なしトレーニングが検討されている。
しかし、アノテーションを使わずに、あらゆるものをゼロショットでセグメント化できるモデルを構築することは、まだ難しい。
本稿では,この目的を達成するために,安定拡散モデルにおける自己注意層を利用することを提案する。
具体的には、注意マップ間のKLのばらつきを計測し、それらを有効なセグメンテーションマスクにマージする、単純で効果的な反復的マージプロセスを提案する。
提案手法は,任意の画像の品質セグメンテーションを抽出するために,訓練や言語依存を必要としない。
COCO-Stuff-27では,従来の教師なしゼロショットSOTA法を26%,IoU平均17%で上回っている。
プロジェクトのページは \url{https://sites.google.com/view/diffseg/home} にある。
関連論文リスト
- UnSeg: One Universal Unlearnable Example Generator is Enough against All Image Segmentation [64.01742988773745]
未承認のプライベートデータ上での大規模なイメージセグメンテーションモデルのトレーニングに関して、プライバシーに関する懸念が高まっている。
我々は、学習不可能な例の概念を利用して、学習不可能なノイズを原画像に生成し、付加することにより、モデルトレーニングに使用不能な画像を作成する。
6つのメインストリームイメージセグメンテーションタスク、10つの広く使われているデータセット、7つの異なるネットワークアーキテクチャでUnSegの有効性を実証的に検証する。
論文 参考訳(メタデータ) (2024-10-13T16:34:46Z) - DiffCut: Catalyzing Zero-Shot Semantic Segmentation with Diffusion Features and Recursive Normalized Cut [62.63481844384229]
ファンデーションモデルは、言語、ビジョン、マルチモーダルタスクなど、さまざまな領域にまたがる強力なツールとして登場した。
本稿では,拡散UNetエンコーダを基礎ビジョンエンコーダとして使用し,教師なしゼロショットセグメンテーション手法であるDiffCutを紹介する。
我々の研究は、拡散UNetエンコーダに埋め込まれた極めて正確なセマンティック知識を強調し、下流タスクの基盤ビジョンエンコーダとして機能する。
論文 参考訳(メタデータ) (2024-06-05T01:32:31Z) - SOHES: Self-supervised Open-world Hierarchical Entity Segmentation [82.45303116125021]
この研究は、人間のアノテーションを必要としない新しいアプローチであるSOHES(Self-supervised Open World Hierarchical Entities)を提示する。
視覚的特徴クラスタリングにより高品質な擬似ラベルを生成し,教師同士の学習によって擬似ラベルの雑音を補正する。
学習データとして生画像を用いることにより,自己監督型オープンワールドセグメンテーションにおける前例のない性能を実現する。
論文 参考訳(メタデータ) (2024-04-18T17:59:46Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Unsupervised Universal Image Segmentation [59.0383635597103]
本稿では,Unsupervised Universal Model (U2Seg) を提案する。
U2Segは、自己教師付きモデルを利用して、これらのセグメンテーションタスクの擬似意味ラベルを生成する。
次に、これらの擬似意味ラベル上でモデルを自己学習し、かなりの性能向上をもたらす。
論文 参考訳(メタデータ) (2023-12-28T18:59:04Z) - Exploring Open-Vocabulary Semantic Segmentation without Human Labels [76.15862573035565]
我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。
ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。
提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T08:47:06Z) - MaskSplit: Self-supervised Meta-learning for Few-shot Semantic
Segmentation [10.809349710149533]
本稿では,少数ショットセグメンテーションモデル学習のための自己教師付きトレーニング手法を提案する。
まず、教師なしサリエンシ推定を用いて画像上の擬似マスクを求める。
次に、擬似マスクの異なる分割と画像の拡張に対して、簡単なプロトタイプベースのモデルをトレーニングする。
論文 参考訳(メタデータ) (2021-10-23T12:30:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。