論文の概要: Diffusion Meets Few-shot Class Incremental Learning
- arxiv url: http://arxiv.org/abs/2503.23402v1
- Date: Sun, 30 Mar 2025 11:20:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:57.102698
- Title: Diffusion Meets Few-shot Class Incremental Learning
- Title(参考訳): Diffusionが数発のインクリメンタルラーニングに挑戦
- Authors: Junsu Kim, Yunhoe Ku, Dongyoon Han, Seungryul Baek,
- Abstract要約: FSCIL(Few-shot class-incremental Learning)は、非常に限られたトレーニングデータのために困難である。
本研究では,テキスト・画像拡散モデルを冷凍バックボーンとして利用する新しい手法であるDiffusion-FSCILを提案する。
- 参考スコア(独自算出の注目度): 20.418410535842956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot class-incremental learning (FSCIL) is challenging due to extremely limited training data; while aiming to reduce catastrophic forgetting and learn new information. We propose Diffusion-FSCIL, a novel approach that employs a text-to-image diffusion model as a frozen backbone. Our conjecture is that FSCIL can be tackled using a large generative model's capabilities benefiting from 1) generation ability via large-scale pre-training; 2) multi-scale representation; 3) representational flexibility through the text encoder. To maximize the representation capability, we propose to extract multiple complementary diffusion features to play roles as latent replay with slight support from feature distillation for preventing generative biases. Our framework realizes efficiency through 1) using a frozen backbone; 2) minimal trainable components; 3) batch processing of multiple feature extractions. Extensive experiments on CUB-200, miniImageNet, and CIFAR-100 show that Diffusion-FSCIL surpasses state-of-the-art methods, preserving performance on previously learned classes and adapting effectively to new ones.
- Abstract(参考訳): FSCIL (Few-shot class-incremental learning) は、極めて限られたトレーニングデータのために困難であり、破滅的な忘れ込みを減らし、新しい情報を学ぶことを目的としている。
本研究では,テキスト・画像拡散モデルを冷凍バックボーンとして利用する新しい手法であるDiffusion-FSCILを提案する。
我々の予想では、FSCILは大きな生成モデルの利点を生かして取り組まなければならない。
1) 大規模事前訓練による発電能力
2) マルチスケール表現
3)テキストエンコーダによる表現の柔軟性。
表現能力を最大化するために,複数の相補的拡散特性を抽出し,生成バイアスを防止するため,特徴蒸留からわずかに支持された潜在リプレイとしての役割を果たすことを提案する。
我々の枠組みは効率性を実現する
1) 冷凍バックボーンの使用
2) 最小限の訓練可能なコンポーネント
3)複数特徴抽出のバッチ処理。
CUB-200, miniImageNet, CIFAR-100の広範な実験により、Diffusion-FSCILは最先端の手法を超越し、それまでの学習クラスのパフォーマンスを維持し、新しいクラスに効果的に適応することを示した。
関連論文リスト
- Diffusion Model Meets Non-Exemplar Class-Incremental Learning and Beyond [48.51784137032964]
非典型的なクラス増分学習(Non-exemplar class-incremental learning、NECIL)は、古いクラスサンプルを保存せずに破滅的な忘れ込みに抵抗することである。
NECILのためのシンプルで効果的な textbfDiffusion ベースの textbfFeature textbfReplay (textbfDiffFR) 法を提案する。
論文 参考訳(メタデータ) (2024-08-06T06:33:24Z) - Learning Prompt with Distribution-Based Feature Replay for Few-Shot Class-Incremental Learning [56.29097276129473]
分散型特徴再現(LP-DiF)を用いた学習プロンプト(Learning Prompt)という,シンプルで効果的なフレームワークを提案する。
新しいセッションでは,学習可能なプロンプトが古い知識を忘れないようにするため,擬似機能的リプレイ手法を提案する。
新しいセッションに進むと、古いクラスのディストリビューションと現在のセッションのトレーニングイメージを組み合わせて擬似フィーチャーをサンプリングして、プロンプトを最適化する。
論文 参考訳(メタデータ) (2024-01-03T07:59:17Z) - Reverse Stable Diffusion: What prompt was used to generate this image? [73.10116197883303]
本研究では, 生成拡散モデルにより生成された画像に対して, 迅速な埋め込みを予測できる課題について検討する。
本稿では,複数ラベルの語彙分類を目的とする共同学習フレームワークを提案する。
我々はDiffusionDBデータセットの実験を行い、安定拡散によって生成された画像からテキストプロンプトを予測する。
論文 参考訳(メタデータ) (2023-08-02T23:39:29Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Structural Pruning for Diffusion Models [65.02607075556742]
Diff-Pruningは、既存のものから軽量拡散モデルの学習に適した効率的な圧縮手法である。
複数のデータセットにまたがって実施した経験的評価は,提案手法の2つの利点を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-05-18T12:38:21Z) - Your Diffusion Model is Secretly a Zero-Shot Classifier [90.40799216880342]
大規模テキスト・画像拡散モデルからの密度推定をゼロショット分類に活用できることを示す。
分類に対する我々の生成的アプローチは、様々なベンチマークで強い結果が得られる。
我々の結果は、下流タスクにおける差別的モデルよりも生成的な利用に向けての一歩である。
論文 参考訳(メタデータ) (2023-03-28T17:59:56Z) - DiffusionSeg: Adapting Diffusion Towards Unsupervised Object Discovery [20.787180028571694]
DiffusionSegは、2段階戦略を含む合成探索フレームワークである。
我々は,豊富な画像を合成し,第1段階でマスクを得るための新しいトレーニングフリーアテンションカットを提案する。
第2のエクスプロイト段階では、構造的ギャップを埋めるために、インバージョン技術を用いて、与えられた画像を拡散特徴にマッピングする。
論文 参考訳(メタデータ) (2023-03-17T07:47:55Z) - Few-shot learning via tensor hallucination [17.381648488344222]
限定されたラベルデータのみを与えられた例を分類するという課題に対処する。
単純な損失関数を使うことは、少数ショット設定でフィーチャージェネレータをトレーニングするのに十分であることを示す。
提案手法は,より洗練されたデータ拡張手法を上回って,新たな技術状態を設定する。
論文 参考訳(メタデータ) (2021-04-19T17:30:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。