論文の概要: Image Classification Using a Diffusion Model as a Pre-Training Model
- arxiv url: http://arxiv.org/abs/2505.06890v1
- Date: Sun, 11 May 2025 08:03:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.094555
- Title: Image Classification Using a Diffusion Model as a Pre-Training Model
- Title(参考訳): 拡散モデルを用いた事前学習モデルによる画像分類
- Authors: Kosuke Ukita, Ye Xiaolong, Tsuyoshi Okita,
- Abstract要約: 本稿では,視覚変換器(ViT)から派生した表現を,変換器を用いた拡散モデルの内部処理に利用する,表現条件機構を統合した拡散モデルを提案する。
脳画像における血腫検出のためのゼロショット分類タスクを用いて本手法の評価を行った。強いコントラスト学習ベースラインであるDINOv2と比較して,精度は+6.15%,F1スコアは+13.60%向上した。
- 参考スコア(独自算出の注目度): 3.1976901430982063
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a diffusion model that integrates a representation-conditioning mechanism, where the representations derived from a Vision Transformer (ViT) are used to condition the internal process of a Transformer-based diffusion model. This approach enables representation-conditioned data generation, addressing the challenge of requiring large-scale labeled datasets by leveraging self-supervised learning on unlabeled data. We evaluate our method through a zero-shot classification task for hematoma detection in brain imaging. Compared to the strong contrastive learning baseline, DINOv2, our method achieves a notable improvement of +6.15% in accuracy and +13.60% in F1-score, demonstrating its effectiveness in image classification.
- Abstract(参考訳): 本稿では,視覚変換器(ViT)から派生した表現を用いて,変換器を用いた拡散モデルの内部過程をモデル化する,表現条件機構を統合した拡散モデルを提案する。
このアプローチは表現条件付きデータ生成を可能にし、ラベルなしデータに自己教師付き学習を活用することで、大規模ラベル付きデータセットを必要とする問題に対処する。
脳画像における血腫検出のためのゼロショット分類タスクを用いて本手法の評価を行った。
強力なコントラスト学習ベースラインであるDINOv2と比較して,F1スコアの精度が+6.15%,+13.60%向上し,画像分類における有効性を示した。
関連論文リスト
- DIVE: Inverting Conditional Diffusion Models for Discriminative Tasks [79.50756148780928]
本稿では,事前学習した拡散モデルを用いて識別課題を遂行する問題について検討する。
我々は、事前学習されたレイアウト・ツー・イメージ拡散モデルの「反転」により、事前学習した凍結生成拡散モデルの識別能力を分類タスクからより複雑なオブジェクト検出タスクに拡張する。
論文 参考訳(メタデータ) (2025-04-24T05:13:27Z) - Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - Anisotropic Diffusion Probabilistic Model for Imbalanced Image Classification [8.364943466191933]
非平衡画像分類問題に対する異方性拡散確率モデル(ADPM)を提案する。
我々は,データ分布を用いて,前処理中の異なるクラスサンプルの拡散速度を制御し,逆処理におけるデノイザの分類精度を効果的に向上する。
その結果, 異方性拡散モデルにより, ヘッドクラスの精度を維持しつつ, 希少クラスの分類精度が著しく向上することが確認された。
論文 参考訳(メタデータ) (2024-09-22T04:42:52Z) - Mask-guided cross-image attention for zero-shot in-silico histopathologic image generation with a diffusion model [0.10910416614141322]
拡散モデルは、シリコン内画像を生成する最先端のソリューションである。
自然画像の出現伝達拡散モデルが設計されている。
計算病理学、特に腫瘍学では、画像内のどのオブジェクトを前景と背景に分類すべきかを簡単に定義することはできない。
我々は,クラス固有のAdaIN特徴量マッチングを交互に行うために,外観伝達指導を変更することで,拡散安定画像への外観伝達モデルの適用性に寄与する。
論文 参考訳(メタデータ) (2024-07-16T12:36:26Z) - The Journey, Not the Destination: How Data Guides Diffusion Models [75.19694584942623]
大規模なデータセットでトレーニングされた拡散モデルは、顕著な品質と多様性のフォトリアリスティックなイメージを合成することができる。
i)拡散モデルの文脈でデータ属性の形式的概念を提供し、(ii)そのような属性を反実的に検証することを可能にする枠組みを提案する。
論文 参考訳(メタデータ) (2023-12-11T08:39:43Z) - Class-Prototype Conditional Diffusion Model with Gradient Projection for Continual Learning [20.175586324567025]
破滅的な忘れ方を減らすことは、継続的な学習における重要なハードルである。
大きな問題は、生成したデータの品質がオリジナルのものと比べて低下することである。
本稿では,ジェネレータにおける画像品質を向上させる連続学習のためのGRに基づくアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-10T17:39:42Z) - DiffMix: Diffusion Model-based Data Synthesis for Nuclei Segmentation
and Classification in Imbalanced Pathology Image Datasets [8.590026259176806]
拡散モデルを用いた現実的なデータ合成法を提案する。
トレーニングデータの配布を拡大するために,仮想パッチを2種類生成する。
意味ラベル条件付き拡散モデルを用いて、現実的で高品質な画像サンプルを生成する。
論文 参考訳(メタデータ) (2023-06-25T05:31:08Z) - Denoising Diffusion Autoencoders are Unified Self-supervised Learners [58.194184241363175]
本稿では,拡散モデルにおけるネットワーク,すなわち拡散オートエンコーダ(DDAE)が,自己教師型学習者の統合であることを示す。
DDAEはすでに、補助エンコーダを使わずに、中間層内で線形分離可能な表現を強く学習している。
CIFAR-10 と Tiny-ImageNet の線形評価精度は95.9% と 50.0% である。
論文 参考訳(メタデータ) (2023-03-17T04:20:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。