論文の概要: Beyond Synthetic Replays: Turning Diffusion Features into Few-Shot Class-Incremental Learning Knowledge
- arxiv url: http://arxiv.org/abs/2503.23402v2
- Date: Sat, 27 Sep 2025 10:31:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 17:47:08.871758
- Title: Beyond Synthetic Replays: Turning Diffusion Features into Few-Shot Class-Incremental Learning Knowledge
- Title(参考訳): 合成リプレイを超えて:拡散特徴を数ショットのクラスインクリメンタル学習知識に変換する
- Authors: Junsu Kim, Yunhoe Ku, Dongyoon Han, Seungryul Baek,
- Abstract要約: FSCIL(Few-shot class-incremental Learning)は、非常に限られたトレーニングデータのために困難である。
最近の研究は、これらの課題に対処するために、生成モデル、特に安定拡散(SD)を調査している。
そこで,Diffusion-FSCILを導入し,実画像の特徴を捉え,SDから4つの相乗的特徴型を抽出する。
- 参考スコア(独自算出の注目度): 36.22704733553466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot class-incremental learning (FSCIL) is challenging due to extremely limited training data while requiring models to acquire new knowledge without catastrophic forgetting. Recent works have explored generative models, particularly Stable Diffusion (SD), to address these challenges. However, existing approaches use SD mainly as a replay generator, whereas we demonstrate that SD's rich multi-scale representations can serve as a unified backbone. Motivated by this observation, we introduce Diffusion-FSCIL, which extracts four synergistic feature types from SD by capturing real image characteristics through inversion, providing semantic diversity via class-conditioned synthesis, enhancing generalization through controlled noise injection, and enabling replay without image storage through generative features. Unlike conventional approaches requiring synthetic buffers and separate classification backbones, our unified framework operates entirely in the latent space with only lightweight networks ($\approx$6M parameters). Extensive experiments on CUB-200, miniImageNet, and CIFAR-100 demonstrate state-of-the-art performance, with comprehensive ablations confirming the necessity of each feature type. Furthermore, we confirm that our streamlined variant maintains competitive accuracy while substantially improving efficiency, establishing the viability of generative models as practical and effective backbones for FSCIL.
- Abstract(参考訳): FSCIL (Few-shot class-incremental Learning) は、学習データが非常に限られている一方で、モデルが破滅的な忘れをせずに新しい知識を取得する必要があるため困難である。
最近の研究は、これらの課題に対処するために、生成モデル、特に安定拡散(SD)を調査している。
しかし、既存のアプローチでは、主にリプレイジェネレータとしてSDを使用し、一方、SDのリッチなマルチスケール表現は、統一されたバックボーンとして機能することを示す。
この観測により,Diffusion-FSCILがSDから4種類の相乗的特徴型を抽出し,実画像の特徴をインバージョンにより捉え,クラス条件付き合成による意味的多様性を提供し,制御されたノイズ注入による一般化を高め,生成的特徴による画像記憶のない再生を可能にする。
合成バッファと分離された分類バックボーンを必要とする従来のアプローチとは異なり、我々の統合されたフレームワークは軽量ネットワーク($6Mパラメータ)で完全に潜在空間で動作する。
CUB-200, miniImageNet, CIFAR-100の広範囲な実験は、各特徴タイプの必要性を総合的に確認し、最先端のパフォーマンスを実証している。
さらに,我々は,FSCILの実用的かつ効果的なバックボーンとして生成モデルの有効性を確立するとともに,効率を大幅に向上しながら,競争精度を維持していることを確認した。
関連論文リスト
- DAV-GSWT: Diffusion-Active-View Sampling for Data-Efficient Gaussian Splatting Wang Tiles [9.641815204004823]
3D Gaussian Splattingは、フォトリアリスティックなニューラルレンダリングの機能を再定義した。
DAV-GSWTは拡散先行とアクティブビューサンプリングを活用して高忠実度Wang Tilesを合成するフレームワークである。
本システムは,大規模仮想環境に必要な視覚的整合性と対話的性能を維持しつつ,必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2026-02-17T04:47:39Z) - Adapting Multimodal Foundation Models for Few-Shot Learning: A Comprehensive Study on Contrastive Captioners [1.2461503242570642]
本稿では,コントラシティブ・キャピタ(CoCa)視覚バックボーンを用いた画像分類手法を提案する。
強いデータ拡張は、低ショット環境での線形探索の性能を低下させるが、LoRA微調整の安定化には不可欠である。
また,Supervised Contrastive (SupCon) の損失を組み込んだハイブリッド目的が,標準的なクロスエントロピーよりも一貫した性能向上をもたらすことを示す。
論文 参考訳(メタデータ) (2025-12-14T20:13:21Z) - Diffusion-Classifier Synergy: Reward-Aligned Learning via Mutual Boosting Loop for FSCIL [19.094835780362775]
FSCIL(Few-Shot Class-Incremental Learning)は、最小限の例から新しいクラスを逐次学習するモデルに挑戦する。
現在のFSCIL法は、限られたデータセットに依存するため、一般化に苦慮することが多い。
本稿では拡散モデルとFSCIL分類器の相互強化ループを確立する新しいフレームワークであるDiffusion-Classifier Synergy(DCS)を紹介する。
論文 参考訳(メタデータ) (2025-10-04T01:48:52Z) - Learning Robust Diffusion Models from Imprecise Supervision [75.53546939251146]
DMISは、Imrecise Supervisionから堅牢な条件拡散モデルをトレーニングするための統一されたフレームワークである。
我々のフレームワークは、可能性から派生し、その目的を生成的および分類的構成要素に分解する。
画像生成、弱教師付き学習、データセットの凝縮をカバーし、様々な形の不正確な監視実験を行い、DMISが常に高品質でクラス差別的なサンプルを生成することを示した。
論文 参考訳(メタデータ) (2025-10-03T14:00:32Z) - Can Synthetic Images Conquer Forgetting? Beyond Unexplored Doubts in Few-Shot Class-Incremental Learning [9.73590544210575]
FSCIL(Few-shot class-incremental Learning)は、非常に限られたトレーニングデータのために困難である。
本研究では,テキスト・画像拡散モデルを冷凍バックボーンとして利用する新しい手法であるDiffusion-FSCILを提案する。
論文 参考訳(メタデータ) (2025-07-18T08:38:07Z) - FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - Masked Autoencoders Are Effective Tokenizers for Diffusion Models [56.08109308294133]
MAETokは自己エンコーダであり、再構築の忠実さを維持しながら意味的にリッチな潜在空間を学習する。
MaETokは1.69のgFIDで76倍高速トレーニングが可能で、512x512世代で31倍高い推論スループットを実現している。
論文 参考訳(メタデータ) (2025-02-05T18:42:04Z) - Exploring Representation-Aligned Latent Space for Better Generation [86.45670422239317]
生成性能を改善するために,セマンティックな事前情報を統合するReaLSを導入する。
本研究では、ReaLSでトレーニングされたDETとSiTが、FID測定値の15%改善を実現することを示す。
拡張されたセマンティック潜在空間は、セグメンテーションや深さ推定のようなより知覚的な下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-02-01T07:42:12Z) - LayerMix: Enhanced Data Augmentation through Fractal Integration for Robust Deep Learning [1.786053901581251]
ディープラーニングモデルは、アウト・オブ・ディストリビューション(OOD)のサンプルに直面すると、一貫したパフォーマンスを維持するのに苦労することが多い。
モデルロバスト性を体系的に強化する革新的なデータ拡張アプローチであるLayerMixを紹介する。
本手法は,ニューラルネットワークの一般化能力を大幅に向上させる意味論的一貫した合成サンプルを生成する。
論文 参考訳(メタデータ) (2025-01-08T22:22:44Z) - Diffusion Model Meets Non-Exemplar Class-Incremental Learning and Beyond [48.51784137032964]
非典型的なクラス増分学習(Non-exemplar class-incremental learning、NECIL)は、古いクラスサンプルを保存せずに破滅的な忘れ込みに抵抗することである。
NECILのためのシンプルで効果的な textbfDiffusion ベースの textbfFeature textbfReplay (textbfDiffFR) 法を提案する。
論文 参考訳(メタデータ) (2024-08-06T06:33:24Z) - Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文 参考訳(メタデータ) (2024-01-29T10:36:57Z) - Learning Prompt with Distribution-Based Feature Replay for Few-Shot Class-Incremental Learning [56.29097276129473]
分散型特徴再現(LP-DiF)を用いた学習プロンプト(Learning Prompt)という,シンプルで効果的なフレームワークを提案する。
新しいセッションでは,学習可能なプロンプトが古い知識を忘れないようにするため,擬似機能的リプレイ手法を提案する。
新しいセッションに進むと、古いクラスのディストリビューションと現在のセッションのトレーニングイメージを組み合わせて擬似フィーチャーをサンプリングして、プロンプトを最適化する。
論文 参考訳(メタデータ) (2024-01-03T07:59:17Z) - Reverse Stable Diffusion: What prompt was used to generate this image? [73.10116197883303]
本研究では, 生成拡散モデルにより生成された画像に対して, 迅速な埋め込みを予測できる課題について検討する。
本稿では,複数ラベルの語彙分類を目的とする共同学習フレームワークを提案する。
我々はDiffusionDBデータセットの実験を行い、安定拡散によって生成された画像からテキストプロンプトを予測する。
論文 参考訳(メタデータ) (2023-08-02T23:39:29Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Structural Pruning for Diffusion Models [65.02607075556742]
Diff-Pruningは、既存のものから軽量拡散モデルの学習に適した効率的な圧縮手法である。
複数のデータセットにまたがって実施した経験的評価は,提案手法の2つの利点を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-05-18T12:38:21Z) - Your Diffusion Model is Secretly a Zero-Shot Classifier [90.40799216880342]
大規模テキスト・画像拡散モデルからの密度推定をゼロショット分類に活用できることを示す。
分類に対する我々の生成的アプローチは、様々なベンチマークで強い結果が得られる。
我々の結果は、下流タスクにおける差別的モデルよりも生成的な利用に向けての一歩である。
論文 参考訳(メタデータ) (2023-03-28T17:59:56Z) - DiffusionSeg: Adapting Diffusion Towards Unsupervised Object Discovery [20.787180028571694]
DiffusionSegは、2段階戦略を含む合成探索フレームワークである。
我々は,豊富な画像を合成し,第1段階でマスクを得るための新しいトレーニングフリーアテンションカットを提案する。
第2のエクスプロイト段階では、構造的ギャップを埋めるために、インバージョン技術を用いて、与えられた画像を拡散特徴にマッピングする。
論文 参考訳(メタデータ) (2023-03-17T07:47:55Z) - FOSTER: Feature Boosting and Compression for Class-Incremental Learning [52.603520403933985]
ディープニューラルネットワークは、新しいカテゴリーを学ぶ際に破滅的な忘れ方に悩まされる。
本稿では,新たなカテゴリを適応的に学習するためのモデルとして,新しい2段階学習パラダイムFOSTERを提案する。
論文 参考訳(メタデータ) (2022-04-10T11:38:33Z) - Few-shot learning via tensor hallucination [17.381648488344222]
限定されたラベルデータのみを与えられた例を分類するという課題に対処する。
単純な損失関数を使うことは、少数ショット設定でフィーチャージェネレータをトレーニングするのに十分であることを示す。
提案手法は,より洗練されたデータ拡張手法を上回って,新たな技術状態を設定する。
論文 参考訳(メタデータ) (2021-04-19T17:30:33Z) - Self-Regression Learning for Blind Hyperspectral Image Fusion Without
Label [11.291055330647977]
ハイパースペクトル画像(HSI)を再構築した自己回帰学習法を提案し,観察モデルを推定する。
特に,hsiを復元するinvertible neural network (inn) と,観測モデルを推定する2つの完全連結ネットワーク (fcn) を採用している。
我々のモデルは、合成データと実世界のデータセットの両方で実験で最先端の手法を上回ることができる。
論文 参考訳(メタデータ) (2021-03-31T04:48:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。