論文の概要: Your Diffusion Model is Secretly a Zero-Shot Classifier
- arxiv url: http://arxiv.org/abs/2303.16203v2
- Date: Wed, 29 Mar 2023 17:58:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-30 11:14:46.809492
- Title: Your Diffusion Model is Secretly a Zero-Shot Classifier
- Title(参考訳): あなたの拡散モデルは密かにゼロショット分類器です
- Authors: Alexander C. Li, Mihir Prabhudesai, Shivam Duggal, Ellis Brown, Deepak
Pathak
- Abstract要約: 本研究では,大規模テキスト・画像拡散モデルからの密度推定を利用してゼロショット分類を行うことができることを示す。
分類に対する我々の生成的アプローチは、様々なベンチマークで強い結果を得ることができ、代替手法よりも優れています。
我々の結果は、下流タスクにおける差別的モデルよりも生成的な利用に向けての一歩である。
- 参考スコア(独自算出の注目度): 83.33444532291466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent wave of large-scale text-to-image diffusion models has
dramatically increased our text-based image generation abilities. These models
can generate realistic images for a staggering variety of prompts and exhibit
impressive compositional generalization abilities. Almost all use cases thus
far have solely focused on sampling; however, diffusion models can also provide
conditional density estimates, which are useful for tasks beyond image
generation. In this paper, we show that the density estimates from large-scale
text-to-image diffusion models like Stable Diffusion can be leveraged to
perform zero-shot classification without any additional training. Our
generative approach to classification, which we call Diffusion Classifier,
attains strong results on a variety of benchmarks and outperforms alternative
methods of extracting knowledge from diffusion models. Although a gap remains
between generative and discriminative approaches on zero-shot recognition
tasks, we find that our diffusion-based approach has stronger multimodal
relational reasoning abilities than competing discriminative approaches.
Finally, we use Diffusion Classifier to extract standard classifiers from
class-conditional diffusion models trained on ImageNet. Even though these
models are trained with weak augmentations and no regularization, they approach
the performance of SOTA discriminative classifiers. Overall, our results are a
step toward using generative over discriminative models for downstream tasks.
Results and visualizations at https://diffusion-classifier.github.io/
- Abstract(参考訳): 近年の大規模テキスト・画像拡散モデルにより,テキストベースの画像生成能力は劇的に向上した。
これらのモデルは、停滞する様々なプロンプトに対して現実的な画像を生成し、印象的な合成一般化能力を示す。
これまでのほとんどのユースケースはサンプリングのみに重点を置いているが、拡散モデルは画像生成以外のタスクに有用な条件付き密度推定を提供することもできる。
本稿では,Stable Diffusionのような大規模テキスト・画像拡散モデルからの密度推定を,追加の訓練を伴わずにゼロショット分類を行うことができることを示す。
拡散分類器とよばれる分類法は,様々なベンチマークで強い結果を得て,拡散モデルから知識を抽出する代替手法よりも優れている。
ゼロショット認識タスクにおける生成的アプローチと差別的アプローチの間にはギャップが残っているが、我々の拡散に基づくアプローチは、競合する差別的アプローチよりも強いマルチモーダルリレーショナル推論能力を有する。
最後に、Diffusion Classifierを用いて、ImageNetで訓練されたクラス条件拡散モデルから標準分類器を抽出する。
これらのモデルは、弱い拡張と正規化を伴わずに訓練されるが、SOTA識別分類器の性能にアプローチする。
全体としては,下流タスクの識別モデルよりもジェネレーティブを使うための一歩である。
https://diffusion-classifier.github.io/における結果と視覚化
関連論文リスト
- Training Class-Imbalanced Diffusion Model Via Overlap Optimization [55.96820607533968]
実世界のデータセットで訓練された拡散モデルは、尾クラスの忠実度が劣ることが多い。
拡散モデルを含む深い生成モデルは、豊富な訓練画像を持つクラスに偏りがある。
本研究では,異なるクラスに対する合成画像の分布の重複を最小限に抑えるために,コントラスト学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-02-16T16:47:21Z) - Large-scale Reinforcement Learning for Diffusion Models [30.164571425479824]
テキストと画像の拡散モデルは、Webスケールのテキストと画像のトレーニングペアから生じる暗黙のバイアスに影響を受けやすい。
強化学習(Reinforcement Learning, RL)を用いて, 拡散モデルの改善に有効なスケーラブルアルゴリズムを提案する。
提案手法は,従来の拡散モデルと人間の嗜好を整合させる手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-01-20T08:10:43Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - Stable Diffusion for Data Augmentation in COCO and Weed Datasets [5.81198182644659]
本研究は, 安定拡散モデルの有効性を評価するために, 7つの共通カテゴリーと3つの広く分布する雑草種を利用した。
安定拡散に基づく3つの手法(画像から画像への変換,ドリームブース,コントロールネット)を,焦点の異なる画像生成に利用した。
そして、これらの合成画像に基づいて分類・検出タスクを行い、その性能を原画像で訓練されたモデルと比較した。
論文 参考訳(メタデータ) (2023-12-07T02:23:32Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - Discffusion: Discriminative Diffusion Models as Few-shot Vision and Language Learners [88.07317175639226]
本稿では,事前学習したテキストと画像の拡散モデルを数ショットの識別学習者に変換する新しい手法,DSDを提案する。
本手法は, 安定拡散モデルにおいて, 視覚情報とテキスト情報の相互影響を捉えるために, クロスアテンションスコアを用いている。
論文 参考訳(メタデータ) (2023-05-18T05:41:36Z) - DIRE for Diffusion-Generated Image Detection [128.95822613047298]
拡散再構成誤り(DIRE)という新しい表現を提案する。
DIREは、予め訓練された拡散モデルにより、入力画像とその再構成画像間の誤差を測定する。
DIREは生成されたイメージと実際のイメージを区別するためのブリッジとして機能する、というヒントを提供する。
論文 参考訳(メタデータ) (2023-03-16T13:15:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。