論文の概要: Diffuse, Attend, and Segment: Unsupervised Zero-Shot Segmentation using
Stable Diffusion
- arxiv url: http://arxiv.org/abs/2308.12469v2
- Date: Sat, 11 Nov 2023 03:03:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 20:36:45.961763
- Title: Diffuse, Attend, and Segment: Unsupervised Zero-Shot Segmentation using
Stable Diffusion
- Title(参考訳): Diffuse, Attend, Segment: 安定拡散を用いた教師なしゼロショットセグメンテーション
- Authors: Junjiao Tian, Lavisha Aggarwal, Andrea Colaco, Zsolt Kira, Mar
Gonzalez-Franco
- Abstract要約: アノテーションを使わずに任意のものをゼロショットでセグメント化できるモデルを提案する。
注意マップ間のKLのばらつきを計測し,それらを有効なセグメンテーションマスクにマージする,シンプルで効果的な反復的マージ手法を提案する。
COCO-Stuff-27では,従来の教師なしゼロショットSOTA法を26%,IoU平均17%で上回っている。
- 参考スコア(独自算出の注目度): 25.772289652928528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Producing quality segmentation masks for images is a fundamental problem in
computer vision. Recent research has explored large-scale supervised training
to enable zero-shot segmentation on virtually any image style and unsupervised
training to enable segmentation without dense annotations. However,
constructing a model capable of segmenting anything in a zero-shot manner
without any annotations is still challenging. In this paper, we propose to
utilize the self-attention layers in stable diffusion models to achieve this
goal because the pre-trained stable diffusion model has learned inherent
concepts of objects within its attention layers. Specifically, we introduce a
simple yet effective iterative merging process based on measuring KL divergence
among attention maps to merge them into valid segmentation masks. The proposed
method does not require any training or language dependency to extract quality
segmentation for any images. On COCO-Stuff-27, our method surpasses the prior
unsupervised zero-shot SOTA method by an absolute 26% in pixel accuracy and 17%
in mean IoU. The project page is at
\url{https://sites.google.com/view/diffseg/home}.
- Abstract(参考訳): 画像の品質セグメンテーションマスクの作成は、コンピュータビジョンの基本的な問題である。
近年の研究では、画像スタイルのゼロショットセグメンテーションを可能にするための大規模教師あり訓練と、濃密なアノテーションを使わずにセグメンテーションを可能にする教師なしトレーニングが検討されている。
しかし、アノテーションなしであらゆるものをゼロショットでセグメント化できるモデルを構築することは依然として難しい。
本稿では, 自己付着層を安定拡散モデルに活用し, 事前学習した安定拡散モデルが注意層内における物体の固有概念を学習したことにより, この目標を達成することを提案する。
具体的には,注意マップ間のklの発散を計測し,有効なセグメンテーションマスクにマージする簡易かつ効果的な反復的マージプロセスを提案する。
提案手法は,画像の品質セグメンテーションを抽出するために訓練や言語依存を必要としない。
COCO-Stuff-27では,従来の教師なしゼロショットSOTA法を26%,IoU平均17%で上回っている。
プロジェクトページは \url{https://sites.google.com/view/diffseg/home} にある。
関連論文リスト
- Unsupervised Universal Image Segmentation [59.0383635597103]
本稿では,Unsupervised Universal Model (U2Seg) を提案する。
U2Segは、自己教師付きモデルを利用して、これらのセグメンテーションタスクの擬似意味ラベルを生成する。
次に、これらの擬似意味ラベル上でモデルを自己学習し、かなりの性能向上をもたらす。
論文 参考訳(メタデータ) (2023-12-28T18:59:04Z) - Plug-and-Play, Dense-Label-Free Extraction of Open-Vocabulary Semantic
Segmentation from Vision-Language Models [42.04986836450004]
この課題に対して,COCO-OVSS (Plug-and-Play Open-Language-Vocabulary Semantic) を提案する。
OVSSは、直接テキストイメージのクロスアテンションを持つVLMと、画像テキストマッチング損失を利用してセマンティックセグメンテーションを生成する。
モデルが最も注意を払っているパッチを反復的にドロップすることで、セグメンテーションマスクの全範囲をよりよく解決することができる。
論文 参考訳(メタデータ) (2023-11-28T06:42:58Z) - Attention as Annotation: Generating Images and Pseudo-masks for Weakly
Supervised Semantic Segmentation with Diffusion [10.873354142424697]
本稿では,実際の画像や手動のアノテーションに依存しない意味的セグメンテーションのトレーニング手法を提案する。
提案手法は,テキスト・ツー・イメージ拡散モデルにより生成された画像と内部のテキスト・ツー・イメージ・クロスアテンションを併用して,疑似マスクの監督を行う。
実験により、attn2maskは、セグメント化に実際のトレーニングデータを使用しないPASCAL VOCで有望な結果を達成することを示し、また、よりクラスのシナリオであるImageNetセグメンテーションにセグメンテーションをスケールアップすることも有用である。
論文 参考訳(メタデータ) (2023-09-04T05:34:19Z) - Exploring Open-Vocabulary Semantic Segmentation without Human Labels [76.15862573035565]
我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。
ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。
提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T08:47:06Z) - Self-Guided Diffusion Models [53.825634944114285]
自己誘導拡散モデルのためのフレームワークを提案する。
本手法は,様々な画像粒度の誘導信号を提供する。
単ラベルおよび複数ラベルの画像データセットに対する実験により、自己ラベル付きガイダンスは誘導なしで拡散モデルより常に優れていることが示された。
論文 参考訳(メタデータ) (2022-10-12T17:57:58Z) - FreeSOLO: Learning to Segment Objects without Annotations [191.82134817449528]
我々は,単純なインスタンスセグメンテーションメソッドSOLO上に構築された自己教師型インスタンスセグメンテーションフレームワークであるFreeSOLOを紹介する。
また,本手法では,複雑なシーンからオブジェクトを教師なしで検出する,新たなローカライズ対応事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-24T16:31:44Z) - MaskSplit: Self-supervised Meta-learning for Few-shot Semantic
Segmentation [10.809349710149533]
本稿では,少数ショットセグメンテーションモデル学習のための自己教師付きトレーニング手法を提案する。
まず、教師なしサリエンシ推定を用いて画像上の擬似マスクを求める。
次に、擬似マスクの異なる分割と画像の拡張に対して、簡単なプロトタイプベースのモデルをトレーニングする。
論文 参考訳(メタデータ) (2021-10-23T12:30:05Z) - A Closer Look at Self-training for Zero-Label Semantic Segmentation [53.4488444382874]
トレーニング中に見られないクラスをセグメント化できることは、ディープラーニングにおいて重要な技術的課題です。
事前のゼロラベルセマンティクスセグメンテーションは、ビジュアル・セマンティクスの埋め込みや生成モデルを学ぶことによってこのタスクにアプローチする。
本研究では,同一画像の異なる増分から生じる擬似ラベルの交点を取り出し,ノイズの多い擬似ラベルをフィルタリングする整合性正規化器を提案する。
論文 参考訳(メタデータ) (2021-04-21T14:34:33Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。