論文の概要: Your Diffusion Model is Secretly a Zero-Shot Classifier
- arxiv url: http://arxiv.org/abs/2303.16203v1
- Date: Tue, 28 Mar 2023 17:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 13:56:21.418894
- Title: Your Diffusion Model is Secretly a Zero-Shot Classifier
- Title(参考訳): あなたの拡散モデルは密かにゼロショット分類器です
- Authors: Alexander C. Li, Mihir Prabhudesai, Shivam Duggal, Ellis Brown, Deepak
Pathak
- Abstract要約: 大規模なテキスト・画像拡散モデルからの密度推定は、追加の訓練をすることなくゼロショット分類を行うことができることを示す。
分類への我々の生成的アプローチは、様々なベンチマークにおいて強力な結果を得ることができ、拡散モデルから知識を抽出する代替手法よりも優れている。
- 参考スコア(独自算出の注目度): 83.33444532291466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent wave of large-scale text-to-image diffusion models has
dramatically increased our text-based image generation abilities. These models
can generate realistic images for a staggering variety of prompts and exhibit
impressive compositional generalization abilities. Almost all use cases thus
far have solely focused on sampling; however, diffusion models can also provide
conditional density estimates, which are useful for tasks beyond image
generation. In this paper, we show that the density estimates from large-scale
text-to-image diffusion models like Stable Diffusion can be leveraged to
perform zero-shot classification without any additional training. Our
generative approach to classification attains strong results on a variety of
benchmarks and outperforms alternative methods of extracting knowledge from
diffusion models. We also find that our diffusion-based approach has stronger
multimodal relational reasoning abilities than competing contrastive
approaches. Finally, we evaluate diffusion models trained on ImageNet and find
that they approach the performance of SOTA discriminative classifiers trained
on the same dataset, even with weak augmentations and no regularization.
Results and visualizations at https://diffusion-classifier.github.io/
- Abstract(参考訳): 近年の大規模テキスト・画像拡散モデルにより,テキストベースの画像生成能力は劇的に向上した。
これらのモデルは、停滞する様々なプロンプトに対して現実的な画像を生成し、印象的な合成一般化能力を示す。
これまでのほとんどのユースケースはサンプリングのみに重点を置いているが、拡散モデルは画像生成以外のタスクに有用な条件付き密度推定を提供することもできる。
本稿では,Stable Diffusionのような大規模テキスト・画像拡散モデルからの密度推定を,追加の訓練を伴わずにゼロショット分類を行うことができることを示す。
我々の分類法では,様々なベンチマークで強い結果が得られ,拡散モデルから知識を抽出する代替手法よりも優れている。
また,我々の拡散ベースアプローチは,コントラストアプローチよりもマルチモーダルな関係推論能力が高いことがわかった。
最後に、ImageNet上で訓練された拡散モデルを評価し、同じデータセット上で訓練されたSOTA識別分類器の性能にアプローチすることを発見した。
https://diffusion-classifier.github.io/における結果と視覚化
関連論文リスト
- Training Class-Imbalanced Diffusion Model Via Overlap Optimization [55.96820607533968]
実世界のデータセットで訓練された拡散モデルは、尾クラスの忠実度が劣ることが多い。
拡散モデルを含む深い生成モデルは、豊富な訓練画像を持つクラスに偏りがある。
本研究では,異なるクラスに対する合成画像の分布の重複を最小限に抑えるために,コントラスト学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-02-16T16:47:21Z) - Large-scale Reinforcement Learning for Diffusion Models [30.164571425479824]
テキストと画像の拡散モデルは、Webスケールのテキストと画像のトレーニングペアから生じる暗黙のバイアスに影響を受けやすい。
強化学習(Reinforcement Learning, RL)を用いて, 拡散モデルの改善に有効なスケーラブルアルゴリズムを提案する。
提案手法は,従来の拡散モデルと人間の嗜好を整合させる手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-01-20T08:10:43Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - Stable Diffusion for Data Augmentation in COCO and Weed Datasets [5.81198182644659]
本研究は, 安定拡散モデルの有効性を評価するために, 7つの共通カテゴリーと3つの広く分布する雑草種を利用した。
安定拡散に基づく3つの手法(画像から画像への変換,ドリームブース,コントロールネット)を,焦点の異なる画像生成に利用した。
そして、これらの合成画像に基づいて分類・検出タスクを行い、その性能を原画像で訓練されたモデルと比較した。
論文 参考訳(メタデータ) (2023-12-07T02:23:32Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - Discffusion: Discriminative Diffusion Models as Few-shot Vision and Language Learners [88.07317175639226]
本稿では,事前学習したテキストと画像の拡散モデルを数ショットの識別学習者に変換する新しい手法,DSDを提案する。
本手法は, 安定拡散モデルにおいて, 視覚情報とテキスト情報の相互影響を捉えるために, クロスアテンションスコアを用いている。
論文 参考訳(メタデータ) (2023-05-18T05:41:36Z) - DIRE for Diffusion-Generated Image Detection [128.95822613047298]
拡散再構成誤り(DIRE)という新しい表現を提案する。
DIREは、予め訓練された拡散モデルにより、入力画像とその再構成画像間の誤差を測定する。
DIREは生成されたイメージと実際のイメージを区別するためのブリッジとして機能する、というヒントを提供する。
論文 参考訳(メタデータ) (2023-03-16T13:15:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。