論文の概要: A Simple and Efficient Baseline for Zero-Shot Generative Classification
- arxiv url: http://arxiv.org/abs/2412.12594v1
- Date: Tue, 17 Dec 2024 06:50:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 17:09:38.570643
- Title: A Simple and Efficient Baseline for Zero-Shot Generative Classification
- Title(参考訳): ゼロショット生成分類のための簡易かつ効率的なベースライン
- Authors: Zipeng Qi, Buhua Liu, Shiyan Zhang, Bao Li, Zhiqiang Xu, Haoyi Xiong, Zeke Xie,
- Abstract要約: 本稿では,事前訓練されたテキスト・ツー・イメージ拡散モデルとDINOv2を用いた,恥ずかしいほどシンプルで効率的なゼロショット拡散ベース分類器(GDC)を提案する。
提案されたGDCは、ImageNetで従来のゼロショット拡散ベースの分類器を10ポイント以上(61.40% - 71.44%)上回るだけでなく、ImageNetで1つの画像の分類を30000回以上(1000 - 0.03秒)加速する。
我々の広範な実験により、GDCは様々なデータセットに対して高い競争力を持つゼロショット分類性能を達成でき、より強力に自己改善できることが示された。
- 参考スコア(独自算出の注目度): 28.167278644416992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large diffusion models have become mainstream generative models in both academic studies and industrial AIGC applications. Recently, a number of works further explored how to employ the power of large diffusion models as zero-shot classifiers. While recent zero-shot diffusion-based classifiers have made performance advancement on benchmark datasets, they still suffered badly from extremely slow classification speed (e.g., ~1000 seconds per classifying single image on ImageNet). The extremely slow classification speed strongly prohibits existing zero-shot diffusion-based classifiers from practical applications. In this paper, we propose an embarrassingly simple and efficient zero-shot Gaussian Diffusion Classifiers (GDC) via pretrained text-to-image diffusion models and DINOv2. The proposed GDC can not only significantly surpass previous zero-shot diffusion-based classifiers by over 10 points (61.40% - 71.44%) on ImageNet, but also accelerate more than 30000 times (1000 - 0.03 seconds) classifying a single image on ImageNet. Additionally, it provides probability interpretation of the results. Our extensive experiments further demonstrate that GDC can achieve highly competitive zero-shot classification performance over various datasets and can promisingly self-improve with stronger diffusion models. To the best of our knowledge, the proposed GDC is the first zero-shot diffusionbased classifier that exhibits both competitive accuracy and practical efficiency.
- Abstract(参考訳): 大規模拡散モデルは、学術研究と産業AIGC応用の両方において主要な生成モデルとなっている。
近年、大規模な拡散モデルのパワーをゼロショット分類器として活用する方法が研究されている。
最近のゼロショット拡散ベースの分類器はベンチマークデータセットのパフォーマンス向上を図っているが、それでも非常に遅い分類速度(例えば、ImageNet上のシングルイメージの分類1秒あたり約1000秒)に悩まされている。
非常に遅い分類速度は、既存のゼロショット拡散に基づく分類器を実用的応用から強く禁止する。
本稿では,事前訓練されたテキスト・ツー・イメージ拡散モデルとDINOv2を用いて,恥ずかしいほどシンプルで効率的なゼロショットガウス拡散分類器(GDC)を提案する。
提案されたGDCは、ImageNetで従来のゼロショット拡散ベースの分類器を10ポイント以上(61.40% - 71.44%)上回るだけでなく、ImageNetで1つの画像の分類を30000回以上(1000 - 0.03秒)加速する。
さらに、結果の確率的解釈も提供する。
我々の広範な実験により、GDCは様々なデータセットに対して高い競争力を持つゼロショット分類性能を達成でき、より強力な拡散モデルで有望に自己改善できることが示された。
我々の知る限り、提案したGDCは、競争精度と実用効率の両方を示す最初のゼロショット拡散に基づく分類器である。
関連論文リスト
- CLIPure: Purification in Latent Space via CLIP for Adversarially Robust Zero-Shot Classification [65.46685389276443]
画像とテキストプロンプトをマッチングすることでゼロショット分類を行うことができる、視覚言語で事前訓練されたエンコーダモデルであるCLIPについて検討する。
次に, 共分散精製プロセス間のKL分散として精製リスクを定式化する。
画像の潜伏ベクトルの確率をモデル化するCLI-Diffと、画像の埋め込みとaの写真とのコサイン類似度をモデル化するCLI-Cosの2つのバリエーションを提案する。
論文 参考訳(メタデータ) (2025-02-25T13:09:34Z) - Diffusion Models without Classifier-free Guidance [41.59396565229466]
モデルガイダンス(MG)は拡散モデルアドレスを訓練するための新しい目的であり、よく使われるガイダンス(CFG)を除去する。
我々の革新的なアプローチは、標準モデリングを超越し、条件の後方確率を組み込む。
提案手法は,CFGを用いた並列拡散モデルにおいても,学習過程を著しく加速し,推論速度を2倍にし,並列拡散モデルでさえ並列に超える異常な品質を実現する。
論文 参考訳(メタデータ) (2025-02-17T18:59:50Z) - Robust Representation Consistency Model via Contrastive Denoising [83.47584074390842]
ランダムな平滑化は、敵の摂動に対する堅牢性を証明する理論的保証を提供する。
拡散モデルは、ノイズ摂動サンプルを浄化するためにランダムな平滑化に成功している。
我々は,画素空間における拡散軌跡に沿った生成的モデリングタスクを,潜在空間における識別的タスクとして再構成する。
論文 参考訳(メタデータ) (2025-01-22T18:52:06Z) - Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
任意の制約下で高速かつ高品質な生成を可能にするアルゴリズムを提案する。
推測中、ノイズの多い画像上で計算された勾配更新と、最終的なクリーンな画像で計算されたアップデートとを交換できる。
我々のアプローチは、最先端のトレーニングフリー推論アプローチに匹敵するか、超越した結果をもたらす。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - Generative Dataset Distillation Based on Diffusion Model [45.305885410046116]
安定拡散に基づく新しい生成データセット蒸留法を提案する。
具体的には,SDXL-Turboモデルを用いて高速で画質の高い画像を生成する。
我々はECCV 2024 DD Challengeで3位となった。
論文 参考訳(メタデータ) (2024-08-16T08:52:02Z) - FineDiffusion: Scaling up Diffusion Models for Fine-grained Image Generation with 10,000 Classes [8.838510307804427]
我々は,1万のカテゴリからなる大規模きめ細粒度画像生成にスケールする大規模な事前学習拡散モデルに対して,FunDiffusionと呼ばれるパラメータ効率の戦略を提案する。
FineDiffusionは、微調整されたクラス埋め込み、バイアス項、正規化レイヤのパラメータのみによって、トレーニングを著しく加速し、ストレージオーバーヘッドを低減する。
本稿では,特に細粒度分類に適したスーパークラス条件付きガイダンスを用いた,微細粒度画像生成のための新しいサンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-02-28T13:50:46Z) - Your Diffusion Model is Secretly a Zero-Shot Classifier [90.40799216880342]
大規模テキスト・画像拡散モデルからの密度推定をゼロショット分類に活用できることを示す。
分類に対する我々の生成的アプローチは、様々なベンチマークで強い結果が得られる。
我々の結果は、下流タスクにおける差別的モデルよりも生成的な利用に向けての一歩である。
論文 参考訳(メタデータ) (2023-03-28T17:59:56Z) - Cap2Aug: Caption guided Image to Image data Augmentation [41.53127698828463]
Cap2Augは、画像キャプションをテキストプロンプトとして使用する画像から画像への拡散モデルに基づくデータ拡張戦略である。
限られた訓練画像からキャプションを生成し,これらのキャプションを用いて画像間安定拡散モデルを用いてトレーニング画像を編集する。
この戦略は、トレーニング画像に似た画像の拡張バージョンを生成するが、サンプル全体にわたって意味的な多様性を提供する。
論文 参考訳(メタデータ) (2022-12-11T04:37:43Z) - Traditional Classification Neural Networks are Good Generators: They are
Competitive with DDPMs and GANs [104.72108627191041]
従来のニューラルネットワーク分類器は、最先端の生成モデルに匹敵する高品質な画像を生成することができることを示す。
マスクをベースとした再構成モジュールを提案し, 意味的勾配を意識し, 可視画像の合成を行う。
また,本手法は,画像テキスト基盤モデルに関して,テキスト・画像生成にも適用可能であることを示す。
論文 参考訳(メタデータ) (2022-11-27T11:25:35Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z) - Ortho-Shot: Low Displacement Rank Regularization with Data Augmentation
for Few-Shot Learning [23.465747123791772]
少数の分類において、第一の目的は、新しいクラスをうまく一般化する表現を学ぶことである。
オルソショット(Ortho-Shot)と呼ばれる効率的な低変位ランク(LDR)正規化戦略を提案する。
論文 参考訳(メタデータ) (2021-10-18T14:58:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。