Fugu-MT 論文翻訳(概要): Your Diffusion Model is Secretly a Zero-Shot Classifier

論文の概要: Your Diffusion Model is Secretly a Zero-Shot Classifier

arxiv url: http://arxiv.org/abs/2303.16203v2
Date: Wed, 29 Mar 2023 17:58:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-30 11:14:46.809492
Title: Your Diffusion Model is Secretly a Zero-Shot Classifier
Title（参考訳）: あなたの拡散モデルは密かにゼロショット分類器です
Authors: Alexander C. Li, Mihir Prabhudesai, Shivam Duggal, Ellis Brown, Deepak Pathak
Abstract要約: 本研究では,大規模テキスト・画像拡散モデルからの密度推定を利用してゼロショット分類を行うことができることを示す。分類に対する我々の生成的アプローチは、様々なベンチマークで強い結果を得ることができ、代替手法よりも優れています。我々の結果は、下流タスクにおける差別的モデルよりも生成的な利用に向けての一歩である。
参考スコア（独自算出の注目度）: 83.33444532291466
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The recent wave of large-scale text-to-image diffusion models has dramatically increased our text-based image generation abilities. These models can generate realistic images for a staggering variety of prompts and exhibit impressive compositional generalization abilities. Almost all use cases thus far have solely focused on sampling; however, diffusion models can also provide conditional density estimates, which are useful for tasks beyond image generation. In this paper, we show that the density estimates from large-scale text-to-image diffusion models like Stable Diffusion can be leveraged to perform zero-shot classification without any additional training. Our generative approach to classification, which we call Diffusion Classifier, attains strong results on a variety of benchmarks and outperforms alternative methods of extracting knowledge from diffusion models. Although a gap remains between generative and discriminative approaches on zero-shot recognition tasks, we find that our diffusion-based approach has stronger multimodal relational reasoning abilities than competing discriminative approaches. Finally, we use Diffusion Classifier to extract standard classifiers from class-conditional diffusion models trained on ImageNet. Even though these models are trained with weak augmentations and no regularization, they approach the performance of SOTA discriminative classifiers. Overall, our results are a step toward using generative over discriminative models for downstream tasks. Results and visualizations at https://diffusion-classifier.github.io/
Abstract（参考訳）: 近年の大規模テキスト・画像拡散モデルにより,テキストベースの画像生成能力は劇的に向上した。これらのモデルは、停滞する様々なプロンプトに対して現実的な画像を生成し、印象的な合成一般化能力を示す。これまでのほとんどのユースケースはサンプリングのみに重点を置いているが、拡散モデルは画像生成以外のタスクに有用な条件付き密度推定を提供することもできる。本稿では,Stable Diffusionのような大規模テキスト・画像拡散モデルからの密度推定を,追加の訓練を伴わずにゼロショット分類を行うことができることを示す。拡散分類器とよばれる分類法は,様々なベンチマークで強い結果を得て,拡散モデルから知識を抽出する代替手法よりも優れている。ゼロショット認識タスクにおける生成的アプローチと差別的アプローチの間にはギャップが残っているが、我々の拡散に基づくアプローチは、競合する差別的アプローチよりも強いマルチモーダルリレーショナル推論能力を有する。最後に、Diffusion Classifierを用いて、ImageNetで訓練されたクラス条件拡散モデルから標準分類器を抽出する。これらのモデルは、弱い拡張と正規化を伴わずに訓練されるが、SOTA識別分類器の性能にアプローチする。全体としては,下流タスクの識別モデルよりもジェネレーティブを使うための一歩である。 https://diffusion-classifier.github.io/における結果と視覚化

関連論文リスト

DIVE: Inverting Conditional Diffusion Models for Discriminative Tasks [79.50756148780928]
本稿では,事前学習した拡散モデルを用いて識別課題を遂行する問題について検討する。我々は、事前学習されたレイアウト・ツー・イメージ拡散モデルの「反転」により、事前学習した凍結生成拡散モデルの識別能力を分類タスクからより複雑なオブジェクト検出タスクに拡張する。
論文参考訳（メタデータ） (2025-04-24T05:13:27Z)
Conditional Diffusion Models are Medical Image Classifiers that Provide Explainability and Uncertainty for Free [0.7624308578421438]
本研究は,2次元医用画像分類のためのクラス条件拡散モデルの可能性を初めて探求するものである。そこで我々は,医療拡散分類器の性能向上を図るために,新しい多数決方式を開発した。 CheXpertとISICのメラノーマ皮膚がんデータセットの実験は、基礎と訓練されたスクラッチ拡散モデルが競争力を発揮することを示した。
論文参考訳（メタデータ） (2025-02-06T00:37:21Z)
DiFiC: Your Diffusion Model Holds the Secret to Fine-Grained Clustering [13.960207111424456]
DiFiCは条件拡散モデルに基づく微細クラスタリング法である。実験により、DiFiCは最先端の識別法と生成的クラスタリング法の両方より優れていることが示された。 DiFiCの成功が将来の研究に刺激を与え、世代を超えたタスクにおける拡散モデルの可能性を解き放つことを期待している。
論文参考訳（メタデータ） (2024-12-25T08:55:48Z)
Training Class-Imbalanced Diffusion Model Via Overlap Optimization [55.96820607533968]
実世界のデータセットで訓練された拡散モデルは、尾クラスの忠実度が劣ることが多い。拡散モデルを含む深い生成モデルは、豊富な訓練画像を持つクラスに偏りがある。本研究では,異なるクラスに対する合成画像の分布の重複を最小限に抑えるために,コントラスト学習に基づく手法を提案する。
論文参考訳（メタデータ） (2024-02-16T16:47:21Z)
Large-scale Reinforcement Learning for Diffusion Models [30.164571425479824]
テキストと画像の拡散モデルは、Webスケールのテキストと画像のトレーニングペアから生じる暗黙のバイアスに影響を受けやすい。強化学習(Reinforcement Learning, RL)を用いて, 拡散モデルの改善に有効なスケーラブルアルゴリズムを提案する。提案手法は,従来の拡散モデルと人間の嗜好を整合させる手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-01-20T08:10:43Z)
Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文参考訳（メタデータ） (2023-12-14T11:19:11Z)
Stable Diffusion for Data Augmentation in COCO and Weed Datasets [5.81198182644659]
本研究は, 安定拡散モデルの有効性を評価するために, 7つの共通カテゴリーと3つの広く分布する雑草種を利用した。安定拡散に基づく3つの手法(画像から画像への変換,ドリームブース,コントロールネット)を,焦点の異なる画像生成に利用した。そして、これらの合成画像に基づいて分類・検出タスクを行い、その性能を原画像で訓練されたモデルと比較した。
論文参考訳（メタデータ） (2023-12-07T02:23:32Z)
DiffDis: Empowering Generative Diffusion Model with Cross-Modal Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。 DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2023-08-18T05:03:48Z)
Discffusion: Discriminative Diffusion Models as Few-shot Vision and Language Learners [88.07317175639226]
本稿では,事前学習したテキストと画像の拡散モデルを数ショットの識別学習者に変換する新しい手法,DSDを提案する。本手法は, 安定拡散モデルにおいて, 視覚情報とテキスト情報の相互影響を捉えるために, クロスアテンションスコアを用いている。
論文参考訳（メタデータ） (2023-05-18T05:41:36Z)
DIRE for Diffusion-Generated Image Detection [128.95822613047298]
拡散再構成誤り(DIRE)という新しい表現を提案する。 DIREは、予め訓練された拡散モデルにより、入力画像とその再構成画像間の誤差を測定する。 DIREは生成されたイメージと実際のイメージを区別するためのブリッジとして機能する、というヒントを提供する。
論文参考訳（メタデータ） (2023-03-16T13:15:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。