論文の概要: Exploring Limits of Diffusion-Synthetic Training with Weakly Supervised Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2309.01369v2
- Date: Mon, 15 Apr 2024 13:29:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 02:09:49.220126
- Title: Exploring Limits of Diffusion-Synthetic Training with Weakly Supervised Semantic Segmentation
- Title(参考訳): 弱教師付きセマンティックセグメンテーションによる拡散合成訓練の限界を探る
- Authors: Ryota Yoshihashi, Yuya Otsuka, Kenji Doi, Tomohiro Tanaka, Hirokatsu Kataoka,
- Abstract要約: 本研究は拡散合成セマンティックセマンティックセグメンテーショントレーニングの3つの手法を紹介する。
第一に、信頼性に配慮した堅牢なトレーニングは、もともと弱い教師付き学習で用いられ、合成マスクの品質が不十分なセグメンテーションに役立つ。
第2に、画像Net-1kクラスの画像にバックボーンだけでなく、全体セグメンテーションモデルの大規模事前トレーニングを行うことで、下流のセグメンテーションタスクにメリットがある。
第3に,テキストリソースの制限により,トレーニング画像のスケールアップと多様化を図るために,プロンプトテキストセットにプロンプト拡張,データ拡張を導入する。
- 参考スコア(独自算出の注目度): 16.863038973001483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advance of generative models for images has inspired various training techniques for image recognition utilizing synthetic images. In semantic segmentation, one promising approach is extracting pseudo-masks from attention maps in text-to-image diffusion models, which enables real-image-and-annotation-free training. However, the pioneering training method using the diffusion-synthetic images and pseudo-masks, i.e., DiffuMask has limitations in terms of mask quality, scalability, and ranges of applicable domains. To overcome these limitations, this work introduces three techniques for diffusion-synthetic semantic segmentation training. First, reliability-aware robust training, originally used in weakly supervised learning, helps segmentation with insufficient synthetic mask quality. %Second, large-scale pretraining of whole segmentation models, not only backbones, on synthetic ImageNet-1k-class images with pixel-labels benefits downstream segmentation tasks. Second, we introduce prompt augmentation, data augmentation to the prompt text set to scale up and diversify training images with a limited text resources. Finally, LoRA-based adaptation of Stable Diffusion enables the transfer to a distant domain, e.g., auto-driving images. Experiments in PASCAL VOC, ImageNet-S, and Cityscapes show that our method effectively closes gap between real and synthetic training in semantic segmentation.
- Abstract(参考訳): 画像生成モデルの進歩は、合成画像を利用した画像認識のための様々な訓練技術にインスピレーションを与えている。
セマンティックセグメンテーション(セマンティックセグメンテーション)において、ある有望なアプローチは、テキストと画像の拡散モデルにおける注意マップから擬似マスクを抽出することである。
しかし,拡散合成画像と擬似マスクを用いた先駆的なトレーニング手法であるDiffuMaskは,マスクの品質,拡張性,適用領域の範囲に制限がある。
これらの制限を克服するために、拡散合成セマンティックセグメンテーショントレーニングの3つのテクニックを導入する。
第一に、信頼性に配慮した堅牢なトレーニングは、もともと弱い教師付き学習で用いられ、合成マスクの品質が不十分なセグメンテーションに役立つ。
ImageNet-1k-class image with pixel-labels benefit downstream segmentation tasks。
第2に,テキストリソースの制限により,トレーニング画像のスケールアップと多様化を図るために,プロンプトテキストセットにプロンプト拡張,データ拡張を導入する。
最後に、ロラに基づく安定拡散の適応により、遠方の領域、例えば自動走行画像への転送が可能となる。
PASCAL VOC, ImageNet-S, Cityscapes の実験により, セマンティックセグメンテーションにおける実と合成の訓練のギャップを効果的に埋めることを示す。
関連論文リスト
- Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。
MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。
我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文 参考訳(メタデータ) (2024-10-29T03:49:40Z) - Enhancing Label-efficient Medical Image Segmentation with Text-guided Diffusion Models [5.865983529245793]
TextDiffは、安価な医療用テキストアノテーションを通じて意味表現を改善する。
その結果,TextDiffは,少数のトレーニングサンプルのみで,最先端のマルチモーダルセグメンテーション手法よりもはるかに優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-07T10:21:08Z) - IIDM: Image-to-Image Diffusion Model for Semantic Image Synthesis [8.080248399002663]
本稿では,セマンティック画像合成を画像認識タスクとして扱う。
スタイル参照はまずランダムノイズで汚染され、その後IIDMによって徐々に認知される。
改良,色変換,モデルアンサンブルの3つの手法が提案され,生成品質がさらに向上した。
論文 参考訳(メタデータ) (2024-03-20T08:21:00Z) - Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - MaskDiffusion: Boosting Text-to-Image Consistency with Conditional Mask [84.84034179136458]
テキスト・イメージのミスマッチ問題に繋がる重要な要因は、モダリティ間の関係学習の不十分さである。
本稿では,注目マップと迅速な埋め込みを条件とした適応マスクを提案し,画像特徴に対する各テキストトークンの寄与度を動的に調整する。
この手法はMaskDiffusionと呼ばれ、トレーニング不要で、一般的な事前学習拡散モデルに対してホットプラグ可能である。
論文 参考訳(メタデータ) (2023-09-08T15:53:37Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z) - LD-ZNet: A Latent Diffusion Approach for Text-Based Image Segmentation [10.623430999818925]
本稿では,インターネット規模のデータセットに基づいて学習した潜在拡散モデル(LDM)を用いて,実画像とAI画像のセグメンテーションを行う手法を提案する。
自然画像のテキストと画像のセグメンテーションにおいて,標準ベースラインよりも6%向上することを示す。
AI生成画像では、最先端技術と比較して20%近く改善されている。
論文 参考訳(メタデータ) (2023-03-22T06:55:01Z) - Domain-invariant Prototypes for Semantic Segmentation [30.932130453313537]
ドメイン適応型セマンティックセグメンテーションのためのドメイン不変のプロトタイプを学習する。
本手法は,1段階の訓練のみを伴い,大規模な未注釈対象画像に対してトレーニングを行う必要はない。
論文 参考訳(メタデータ) (2022-08-12T02:21:05Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Scene Text Synthesis for Efficient and Effective Deep Network Training [62.631176120557136]
我々は,背景画像に前景オブジェクトを埋め込むことで,注釈付き訓練画像を構成する革新的な画像合成技術を開発した。
提案手法は,ディープネットワークトレーニングにおける合成画像の有用性を高める2つの重要な要素から構成される。
複数の公開データセットに対する実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2019-01-26T10:15:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。