論文の概要: MaskDiffusion: Exploiting Pre-trained Diffusion Models for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2403.11194v1
- Date: Sun, 17 Mar 2024 12:40:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 18:06:05.337270
- Title: MaskDiffusion: Exploiting Pre-trained Diffusion Models for Semantic Segmentation
- Title(参考訳): MaskDiffusion:セマンティックセグメンテーションのための事前学習拡散モデルの構築
- Authors: Yasufumi Kawano, Yoshimitsu Aoki,
- Abstract要約: MaskDiffusionは、未学習の凍った安定拡散を利用してオープン語彙のセマンティックセマンティックセグメンテーションを実現する革新的なアプローチである。
また,maskDiffusion の細粒度および固有名詞分類を含む開語彙処理における優れた性能を示す。
- 参考スコア(独自算出の注目度): 6.236890292833387
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic segmentation is essential in computer vision for various applications, yet traditional approaches face significant challenges, including the high cost of annotation and extensive training for supervised learning. Additionally, due to the limited predefined categories in supervised learning, models typically struggle with infrequent classes and are unable to predict novel classes. To address these limitations, we propose MaskDiffusion, an innovative approach that leverages pretrained frozen Stable Diffusion to achieve open-vocabulary semantic segmentation without the need for additional training or annotation, leading to improved performance compared to similar methods. We also demonstrate the superior performance of MaskDiffusion in handling open vocabularies, including fine-grained and proper noun-based categories, thus expanding the scope of segmentation applications. Overall, our MaskDiffusion shows significant qualitative and quantitative improvements in contrast to other comparable unsupervised segmentation methods, i.e. on the Potsdam dataset (+10.5 mIoU compared to GEM) and COCO-Stuff (+14.8 mIoU compared to DiffSeg). All code and data will be released at https://github.com/Valkyrja3607/MaskDiffusion.
- Abstract(参考訳): セマンティックセグメンテーションはコンピュータビジョンにおいて様々な用途に不可欠であるが、従来のアプローチではアノテーションの高コスト化や教師あり学習のための広範囲な訓練など、重大な課題に直面している。
さらに、教師付き学習における限定されたカテゴリーのため、モデルは典型的には希少なクラスと苦労し、新しいクラスを予測できない。
これらの制約に対処するために,事前学習した安定拡散を利用してオープン語彙セマンティックセマンティックセグメンテーションを実現するMaskDiffusionを提案する。
また,maskDiffusion の細粒度および固有名詞に基づくカテゴリーを含むオープン語彙処理における優れた性能を示し,セグメンテーションの適用範囲を広げた。
全体として、我々のMaskDiffusionは、ポツダムデータセット(GEMと比較して+10.5 mIoU)やCOCO-Stuff(DiffSegと比較して+14.8 mIoU)など、他の同等の非教師付きセグメンテーション手法と比較して、有意な質的および定量的な改善を示している。
すべてのコードとデータはhttps://github.com/Valkyrja3607/MaskDiffusionで公開される。
関連論文リスト
- Unleashing the Potential of the Diffusion Model in Few-shot Semantic Segmentation [56.87049651707208]
セマンティックはインコンテクストタスクへと発展し、一般化的セグメンテーションモデルを評価する上で重要な要素となった。
我々の最初の焦点は、クエリイメージとサポートイメージの相互作用を容易にする方法を理解することであり、その結果、自己注意フレームワーク内のKV融合法が提案される。
そこで我々はDiffewSというシンプルで効果的なフレームワークを構築し,従来の潜在拡散モデルの生成フレームワークを最大限に保持する。
論文 参考訳(メタデータ) (2024-10-03T10:33:49Z) - Elucidating The Design Space of Classifier-Guided Diffusion Generation [17.704873767509557]
そこで本研究では,市販の分類器をトレーニング不要の手法で活用することにより,既存の指導方式よりも大幅な性能向上を実現することができることを示す。
提案手法は大きな可能性を秘めており,テキスト・画像生成タスクに容易にスケールアップできる。
論文 参考訳(メタデータ) (2023-10-17T14:34:58Z) - Denoising Diffusion Semantic Segmentation with Mask Prior Modeling [61.73352242029671]
本稿では,従来の識別的アプローチのセマンティックセグメンテーション品質を,デノナイズ拡散生成モデルでモデル化したマスクを用いて改善することを提案する。
市販セグメンタを用いた先行モデルの評価を行い,ADE20KとCityscapesの実験結果から,本手法が競争力のある定量的性能を実現することを示す。
論文 参考訳(メタデータ) (2023-06-02T17:47:01Z) - Learning Context-aware Classifier for Semantic Segmentation [88.88198210948426]
本稿では,文脈認識型分類器の学習を通じて文脈ヒントを利用する。
本手法はモデルに依存しないため,ジェネリックセグメンテーションモデルにも容易に適用できる。
無視できる追加パラメータと+2%の推論時間だけで、小型モデルと大型モデルの両方で十分な性能向上が達成されている。
論文 参考訳(メタデータ) (2023-03-21T07:00:35Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z) - Class Enhancement Losses with Pseudo Labels for Zero-shot Semantic
Segmentation [40.09476732999614]
マスクの提案モデルは、ゼロショットセマンティックセグメンテーションの性能を大幅に改善した。
トレーニング中にバックグラウンドを埋め込むことは問題であり、結果として得られたモデルが過剰に学習し、正しいラベルではなく、すべての見えないクラスをバックグラウンドクラスとして割り当てる傾向がある。
本稿では,学習中の背景埋め込みの使用を回避し,テキスト埋め込みとマスク提案のセマンティックな関係を類似度スコアのランク付けにより活用する新しいクラス拡張損失を提案する。
論文 参考訳(メタデータ) (2023-01-18T06:55:02Z) - Deep Dictionary Learning with An Intra-class Constraint [23.679645826983503]
視覚分類のためのクラス内制約(DDLIC)を用いた新しい深層辞書学習モデルを提案する。
具体的には、クラス内表現が互いに近接するように、異なるレベルにおける中間表現のクラス内コンパクト性制約を設計する。
従来のDDL手法とは異なり、分類段階において、DDLICはトレーニング段階と同じような方法で階層的にグレディな最適化を行う。
論文 参考訳(メタデータ) (2022-07-14T11:54:58Z) - Prior Guided Feature Enrichment Network for Few-Shot Segmentation [64.91560451900125]
最先端のセマンティックセグメンテーション手法は、良い結果を得るために十分なラベル付きデータを必要とする。
少数のラベル付きサポートサンプルを持つ新しいクラスに迅速に適応するモデルを学習することで,この問題に対処するためのショットセグメンテーションが提案されている。
これらのフレームワークは、高レベルのセマンティック情報の不適切な使用により、目に見えないクラスにおける一般化能力の低下という課題に直面している。
論文 参考訳(メタデータ) (2020-08-04T10:41:32Z) - Deep Semi-supervised Knowledge Distillation for Overlapping Cervical
Cell Instance Segmentation [54.49894381464853]
本稿では, ラベル付きデータとラベルなしデータの両方を, 知識蒸留による精度向上に活用することを提案する。
摂動に敏感なサンプルマイニングを用いたマスク誘導型平均教師フレームワークを提案する。
実験の結果,ラベル付きデータのみから学習した教師付き手法と比較して,提案手法は性能を著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-21T13:27:09Z) - ClassMix: Segmentation-Based Data Augmentation for Semi-Supervised
Learning [4.205692673448206]
そこで本研究では,未ラベルのサンプルを混合して拡張を生成するClassMixと呼ばれる新しいデータ拡張機構を提案する。
本手法を2つの半教師付きセマンティックセマンティックセマンティクスベンチマークで評価し,その結果を得た。
論文 参考訳(メタデータ) (2020-07-15T18:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。