論文の概要: Advancing Image Classification with Discrete Diffusion Classification Modeling
- arxiv url: http://arxiv.org/abs/2511.20263v1
- Date: Tue, 25 Nov 2025 12:42:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.461162
- Title: Advancing Image Classification with Discrete Diffusion Classification Modeling
- Title(参考訳): 離散拡散分類モデルによる画像分類の高速化
- Authors: Omer Belhasin, Shelly Golan, Ran El-Yaniv, Michael Elad,
- Abstract要約: DiDiCMは拡散に基づく手法を利用して入力画像上に条件付きクラスラベルの後方分布をモデル化する新しいフレームワークである。
本稿では,ImageNetデータセットの分類精度がベースラインよりも高くなり,タスクの難易度が高まるにつれて精度が向上することを示す。
- 参考スコア(独自算出の注目度): 25.92509040578864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image classification is a well-studied task in computer vision, and yet it remains challenging under high-uncertainty conditions, such as when input images are corrupted or training data are limited. Conventional classification approaches typically train models to directly predict class labels from input images, but this might lead to suboptimal performance in such scenarios. To address this issue, we propose Discrete Diffusion Classification Modeling (DiDiCM), a novel framework that leverages a diffusion-based procedure to model the posterior distribution of class labels conditioned on the input image. DiDiCM supports diffusion-based predictions either on class probabilities or on discrete class labels, providing flexibility in computation and memory trade-offs. We conduct a comprehensive empirical study demonstrating the superior performance of DiDiCM over standard classifiers, showing that a few diffusion iterations achieve higher classification accuracy on the ImageNet dataset compared to baselines, with accuracy gains increasing as the task becomes more challenging. We release our code at https://github.com/omerb01/didicm .
- Abstract(参考訳): 画像分類はコンピュータビジョンにおいてよく研究されている課題であるが、入力画像が破損したり、トレーニングデータに制限がある場合など、不確実性が高い条件下では依然として困難である。
従来の分類手法は、入力画像からクラスラベルを直接予測するためにモデルを訓練するが、このようなシナリオでは最適以下のパフォーマンスにつながる可能性がある。
この問題に対処するために,拡散に基づく手法を利用して,入力画像上に条件付きクラスラベルの後方分布をモデル化する,離散拡散分類モデリング(DiDiCM)を提案する。
DiDiCMは、クラス確率または離散クラスラベルのいずれかで拡散ベースの予測をサポートし、計算とメモリトレードオフの柔軟性を提供する。
本稿では,標準分類器よりもDiDiCMの方が優れた性能を示す総合的な実証的研究を行い,いくつかの拡散反復がベースラインよりもImageNetデータセットの分類精度が高く,タスクが困難になるにつれて精度が向上することを示した。
コードについてはhttps://github.com/omerb01/didicm で公開しています。
関連論文リスト
- CLIP Adaptation by Intra-modal Overlap Reduction [1.2277343096128712]
画像空間におけるモーダル内重なりを埋め込み表現の観点から解析する。
Google Open Imagesデータセットからサンプルのジェネリックセットに軽量アダプタをトレーニングします。
論文 参考訳(メタデータ) (2024-09-17T16:40:58Z) - Diffusion Models Beat GANs on Image Classification [37.70821298392606]
拡散モデルは、画像生成、復調、塗装、超解像、操作などの最先端の手法として注目されている。
本稿では,これらの埋め込みは識別情報を含むため,ノイズ予測タスクを超えて有用であり,分類にも活用できることを示す。
注意深い特徴選択とプーリングにより、拡散モデルは、分類タスクにおいて同等な生成的識別的手法より優れていることが判明した。
論文 参考訳(メタデータ) (2023-07-17T17:59:40Z) - Discriminative Class Tokens for Text-to-Image Diffusion Models [102.88033622546251]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。
本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。
i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文 参考訳(メタデータ) (2023-03-30T05:25:20Z) - Your Diffusion Model is Secretly a Zero-Shot Classifier [90.40799216880342]
大規模テキスト・画像拡散モデルからの密度推定をゼロショット分類に活用できることを示す。
分類に対する我々の生成的アプローチは、様々なベンチマークで強い結果が得られる。
我々の結果は、下流タスクにおける差別的モデルよりも生成的な利用に向けての一歩である。
論文 参考訳(メタデータ) (2023-03-28T17:59:56Z) - Cap2Aug: Caption guided Image to Image data Augmentation [41.53127698828463]
Cap2Augは、画像キャプションをテキストプロンプトとして使用する画像から画像への拡散モデルに基づくデータ拡張戦略である。
限られた訓練画像からキャプションを生成し,これらのキャプションを用いて画像間安定拡散モデルを用いてトレーニング画像を編集する。
この戦略は、トレーニング画像に似た画像の拡張バージョンを生成するが、サンプル全体にわたって意味的な多様性を提供する。
論文 参考訳(メタデータ) (2022-12-11T04:37:43Z) - I Am Going MAD: Maximum Discrepancy Competition for Comparing
Classifiers Adaptively [135.7695909882746]
我々は、MAD(Maximum Discrepancy)コンペティションを命名する。
任意に大きいラベル付き画像のコーパスから小さなテストセットを適応的にサンプリングする。
結果のモデル依存画像集合に人間のラベルを付けると、競合する分類器の相対的な性能が明らかになる。
論文 参考訳(メタデータ) (2020-02-25T03:32:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。