論文の概要: Attention as Annotation: Generating Images and Pseudo-masks for Weakly
Supervised Semantic Segmentation with Diffusion
- arxiv url: http://arxiv.org/abs/2309.01369v1
- Date: Mon, 4 Sep 2023 05:34:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 19:54:54.396989
- Title: Attention as Annotation: Generating Images and Pseudo-masks for Weakly
Supervised Semantic Segmentation with Diffusion
- Title(参考訳): アノテーションとしての注意:拡散を伴う弱監視セマンティックセグメンテーションのための画像と擬似マスクの生成
- Authors: Ryota Yoshihashi, Yuya Otsuka, Kenji Doi, Tomohiro Tanaka
- Abstract要約: 本稿では,実際の画像や手動のアノテーションに依存しない意味的セグメンテーションのトレーニング手法を提案する。
提案手法は,テキスト・ツー・イメージ拡散モデルにより生成された画像と内部のテキスト・ツー・イメージ・クロスアテンションを併用して,疑似マスクの監督を行う。
実験により、attn2maskは、セグメント化に実際のトレーニングデータを使用しないPASCAL VOCで有望な結果を達成することを示し、また、よりクラスのシナリオであるImageNetセグメンテーションにセグメンテーションをスケールアップすることも有用である。
- 参考スコア(独自算出の注目度): 10.873354142424697
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although recent advancements in diffusion models enabled high-fidelity and
diverse image generation, training of discriminative models largely depends on
collections of massive real images and their manual annotation. Here, we
present a training method for semantic segmentation that neither relies on real
images nor manual annotation. The proposed method {\it attn2mask} utilizes
images generated by a text-to-image diffusion model in combination with its
internal text-to-image cross-attention as supervisory pseudo-masks. Since the
text-to-image generator is trained with image-caption pairs but without
pixel-wise labels, attn2mask can be regarded as a weakly supervised
segmentation method overall. Experiments show that attn2mask achieves promising
results in PASCAL VOC for not using real training data for segmentation at all,
and it is also useful to scale up segmentation to a more-class scenario, i.e.,
ImageNet segmentation. It also shows adaptation ability with LoRA-based
fine-tuning, which enables the transfer to a distant domain i.e., Cityscapes.
- Abstract(参考訳): 近年の拡散モデルの発展により高忠実度および多彩な画像生成が可能になったが、識別モデルの訓練は主に大量の実画像と手動アノテーションの収集に依存する。
本稿では,実際の画像や手動のアノテーションに依存しないセグメンテーションのトレーニング手法を提案する。
提案手法は,テキストから画像への拡散モデルによって生成された画像と,その内部テキストから画像への相互接続を監督的擬似マスクとして用いる。
テキスト対画像生成装置は画像キャプチャペアで訓練されているが、画素単位のラベルがないため、attn2maskは全体としては弱い教師付きセグメンテーション方法と見なすことができる。
実験により、attn2maskは、セグメント化に実際のトレーニングデータを使用しないPASCAL VOCで有望な結果を達成することを示し、また、よりクラスのシナリオであるImageNetセグメンテーションにセグメンテーションをスケールアップすることも有用である。
また、LoRAベースの微調整により、遠く離れた領域、すなわちCityscapesへの転送を可能にする。
関連論文リスト
- EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models [52.3015009878545]
我々は、追加の訓練をすることなく、きめ細かなセグメンテーションマップを生成できる画像セグメンタを開発した。
低次元特徴写像の空間的位置と画像画素間の意味的対応を同定する。
大規模な実験では、生成したセグメンテーションマップがよく説明され、画像の細部を捉えることが示されている。
論文 参考訳(メタデータ) (2024-01-22T07:34:06Z) - UniGS: Unified Representation for Image Generation and Segmentation [105.08152635402858]
カラーマップを使用してエンティティレベルのマスクを表現し、さまざまなエンティティ番号の課題に対処します。
マスク表現を支援するために、位置認識カラーパレットとプログレッシブ二分法モジュールを含む2つの新しいモジュールが提案されている。
論文 参考訳(メタデータ) (2023-12-04T15:59:27Z) - Zero-shot spatial layout conditioning for text-to-image diffusion models [52.24744018240424]
大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。
画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。
ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
論文 参考訳(メタデータ) (2023-06-23T19:24:48Z) - DFormer: Diffusion-guided Transformer for Universal Image Segmentation [86.73405604947459]
提案したDFormerは,拡散モデルを用いて画像分割タスクをデノナイズプロセスとみなしている。
我々のDFormerは、ランダムに生成されたマスクの集合から、マスクとそれに対応するカテゴリを直接予測します。
我々のDFormerは、最近の拡散型汎光学分割法Pix2Seq-Dより優れており、MS COCO val 2017セットで3.6%向上している。
論文 参考訳(メタデータ) (2023-06-06T06:33:32Z) - DiffuMask: Synthesizing Images with Pixel-level Annotations for Semantic
Segmentation Using Diffusion Models [68.21154597227165]
本研究では,オフザシェルフ安定拡散モデルにより生成された合成画像の正確なセマンティックマスクを自動で取得できることを示す。
我々のアプローチはDiffuMaskと呼ばれ、テキストと画像間の相互注意マップの可能性を利用しています。
論文 参考訳(メタデータ) (2023-03-21T08:43:15Z) - Robust One-shot Segmentation of Brain Tissues via Image-aligned Style
Transformation [13.430851964063534]
本稿では,脳組織のワンショットセグメンテーションのための2モデル反復学習を強化するために,新しい画像整列型変換を提案する。
2つの公開データセットによる実験結果から,1)完全教師付き手法と比較して,提案手法の競合セグメンテーション性能が向上し,2)Diceの平均値が4.67%向上した他の最先端技術よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-11-26T09:14:01Z) - Seed the Views: Hierarchical Semantic Alignment for Contrastive
Representation Learning [116.91819311885166]
一つの画像から生成されたビューをtextbfCross-samples や Multi-level representation に拡張することで,階層的なセマンティックアライメント戦略を提案する。
提案手法はCsMlと呼ばれ,サンプル間の多層視覚表現を堅牢な方法で統合する機能を備えている。
論文 参考訳(メタデータ) (2020-12-04T17:26:24Z) - Learning to Segment from Scribbles using Multi-scale Adversarial
Attention Gates [16.28285034098361]
弱い教師付き学習は、スクリブルのような弱いアノテーション形式に依存してモデルを訓練することができる。
我々は、複数の解像度でリアルなセグメンテーションマスクを生成するために、マルチスケールのGANをトレーニングし、スクリブルを使用して画像中の正しい位置を学習する。
モデルの成功の中心は、敵の信号が先行した形状として振る舞うことを条件とした、新しいアテンションゲーティング機構である。
論文 参考訳(メタデータ) (2020-07-02T14:39:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。