論文の概要: DifFSS: Diffusion Model for Few-Shot Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2307.00773v3
- Date: Wed, 11 Oct 2023 10:29:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 08:20:10.217334
- Title: DifFSS: Diffusion Model for Few-Shot Semantic Segmentation
- Title(参考訳): DifFSS:Few-Shot Semantic Segmentationのための拡散モデル
- Authors: Weimin Tan, Siyuan Chen, Bo Yan
- Abstract要約: 本稿では,DifFSSと呼ばれるFSSタスクの拡散モデルを活用するための最初の研究について述べる。
新たなFSSパラダイムであるDifFSSは、ネットワーク構造を変更することなく、最先端のFSSモデルの性能をさらに向上させることができる。
- 参考スコア(独自算出の注目度): 24.497112957831195
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Diffusion models have demonstrated excellent performance in image generation.
Although various few-shot semantic segmentation (FSS) models with different
network structures have been proposed, performance improvement has reached a
bottleneck. This paper presents the first work to leverage the diffusion model
for FSS task, called DifFSS. DifFSS, a novel FSS paradigm, can further improve
the performance of the state-of-the-art FSS models by a large margin without
modifying their network structure. Specifically, we utilize the powerful
generation ability of diffusion models to generate diverse auxiliary support
images by using the semantic mask, scribble or soft HED boundary of the support
image as control conditions. This generation process simulates the variety
within the class of the query image, such as color, texture variation,
lighting, $etc$. As a result, FSS models can refer to more diverse support
images, yielding more robust representations, thereby achieving a consistent
improvement in segmentation performance. Extensive experiments on three
publicly available datasets based on existing advanced FSS models demonstrate
the effectiveness of the diffusion model for FSS task. Furthermore, we explore
in detail the impact of different input settings of the diffusion model on
segmentation performance. Hopefully, this completely new paradigm will bring
inspiration to the study of FSS task integrated with AI-generated content. Code
is available at https://github.com/TrinitialChan/DifFSS
- Abstract(参考訳): 拡散モデルは画像生成において優れた性能を示した。
様々なネットワーク構造を持つ小ショットセマンティックセグメンテーション(FSS)モデルが提案されているが、性能改善はボトルネックに達している。
本稿では,DifFSSと呼ばれるFSSタスクの拡散モデルを活用するための最初の研究について述べる。
新たなFSSパラダイムであるDifFSSは、ネットワーク構造を変更することなく、最先端のFSSモデルの性能をさらに向上させることができる。
具体的には,拡散モデルの強力な生成能力を利用して,支援画像のセマンティックマスク,スクリブル,ソフトHED境界を制御条件として,多様な補助画像を生成する。
この生成プロセスは、色、テクスチャの変化、照明、$etc$といったクエリイメージのクラス内の多様性をシミュレートする。
結果として、fssモデルはより多様なサポートイメージを参照でき、よりロバストな表現となり、セグメンテーション性能の一貫した改善を達成することができる。
既存の高度なFSSモデルに基づく3つの公開データセットに対する大規模な実験は、FSSタスクの拡散モデルの有効性を示す。
さらに,拡散モデルの入力設定の違いがセグメント化性能に与える影響について詳細に検討した。
この全く新しいパラダイムが、AI生成コンテンツと統合されたFSSタスクの研究にインスピレーションを与えることを期待している。
コードはhttps://github.com/TrinitialChan/DifFSSで入手できる。
関連論文リスト
- DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Diversity is Definitely Needed: Improving Model-Agnostic Zero-shot
Classification via Stable Diffusion [22.237426507711362]
モデル非依存ゼロショット分類(モデル非依存ゼロショット分類、英: Model-Agnostic Zero-Shot Classification、MA-ZSC)とは、訓練中に実際の画像を使わずに、実際の画像を分類するための非特異な分類アーキテクチャを訓練することである。
近年の研究では、拡散モデルを用いて合成訓練画像を生成することが、MA-ZSCに対処するための潜在的な解決策となることが示されている。
本研究では,事前学習した拡散モデルを用いてテキスト・画像生成プロセスの修正を行い,多様性を高める。
論文 参考訳(メタデータ) (2023-02-07T07:13:53Z) - SinDiffusion: Learning a Diffusion Model from a Single Natural Image [159.4285444680301]
SinDiffusionは1つの自然な画像からパッチの内部分布を捉えるためにデノナイズ拡散モデルを利用する。
SinDiffusionは、2つのコア設計に基づいている。まず、SinDiffusionは、段階的にスケールが成長する複数のモデルではなく、1つのスケールで1つのモデルで訓練されている。
第2に,拡散ネットワークのパッチレベルの受容領域は,画像のパッチ統計を捉える上で重要かつ効果的であることを示す。
論文 参考訳(メタデータ) (2022-11-22T18:00:03Z) - Versatile Diffusion: Text, Images and Variations All in One Diffusion
Model [76.89932822375208]
Versatile Diffusionは、テキスト・ツー・イメージ、画像・ツー・テキスト、バリエーションの複数のフローを1つの統一モデルで処理する。
私たちのコードとモデルはhttps://github.com/SHI-Labs/Versatile-Diffusion.comでオープンソース化されています。
論文 参考訳(メタデータ) (2022-11-15T17:44:05Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Few-Shot Diffusion Models [15.828257653106537]
条件付きDDPMを利用した数ショット生成のためのフレームワークであるFew-Shot Diffusion Models (FSDM)を提案する。
FSDMは、画像パッチ情報を集約することにより、所定のクラスからの小さな画像集合に条件付けされた生成プロセスに適応するように訓練される。
FSDMが数ショット生成を行い、新しいデータセットに転送できることを実証的に示す。
論文 参考訳(メタデータ) (2022-05-30T23:20:33Z) - A Dataset and Benchmark Towards Multi-Modal Face Anti-Spoofing Under
Surveillance Scenarios [15.296568518106763]
AFA(Feature Augment)を用いた注意ベースの顔アンチスプーフィングネットワークを提案し、低品質の顔画像に対するFASを解決します。
我々のモデルは,CASIA-SURFデータセットと提案したGREAT-FASD-Sデータセットの最先端性能を実現することができる。
論文 参考訳(メタデータ) (2021-03-29T08:14:14Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。