論文の概要: ManifoldGD: Training-Free Hierarchical Manifold Guidance for Diffusion-Based Dataset Distillation
- arxiv url: http://arxiv.org/abs/2602.23295v1
- Date: Thu, 26 Feb 2026 18:07:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.8312
- Title: ManifoldGD: Training-Free Hierarchical Manifold Guidance for Diffusion-Based Dataset Distillation
- Title(参考訳): ManifoldGD:拡散型データセット蒸留のためのトレーニング不要階層的マニフォールドガイダンス
- Authors: Ayush Roy, Wei-Yang Alex Lee, Rudrasis Chakraborty, Vishnu Suresh Lokhande,
- Abstract要約: 本稿では,各段階における多様体一貫したガイダンスを統合した,学習自由拡散に基づくフレームワークを提案する。
ManifoldGDは、モデルの再トレーニングを必要とせずに、代表性、多様性、画像の忠実性を改善する。
- 参考スコア(独自算出の注目度): 9.230247128710865
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent times, large datasets hinder efficient model training while also containing redundant concepts. Dataset distillation aims to synthesize compact datasets that preserve the knowledge of large-scale training sets while drastically reducing storage and computation. Recent advances in diffusion models have enabled training-free distillation by leveraging pre-trained generative priors; however, existing guidance strategies remain limited. Current score-based methods either perform unguided denoising or rely on simple mode-based guidance toward instance prototype centroids (IPC centroids), which often are rudimentary and suboptimal. We propose Manifold-Guided Distillation (ManifoldGD), a training-free diffusion-based framework that integrates manifold consistent guidance at every denoising timestep. Our method employs IPCs computed via a hierarchical, divisive clustering of VAE latent features, yielding a multi-scale coreset of IPCs that captures both coarse semantic modes and fine intra-class variability. Using a local neighborhood of the extracted IPC centroids, we create the latent manifold for each diffusion denoising timestep. At each denoising step, we project the mode-alignment vector onto the local tangent space of the estimated latent manifold, thus constraining the generation trajectory to remain manifold-faithful while preserving semantic consistency. This formulation improves representativeness, diversity, and image fidelity without requiring any model retraining. Empirical results demonstrate consistent gains over existing training-free and training-based baselines in terms of FID, l2 distance among real and synthetic dataset embeddings, and classification accuracy, establishing ManifoldGD as the first geometry-aware training-free data distillation framework.
- Abstract(参考訳): 近年、大規模なデータセットは効率的なモデルトレーニングを妨げる一方で、冗長な概念も含んでいる。
データセット蒸留は、大規模トレーニングセットの知識を保存しつつ、ストレージと計算を大幅に削減する、コンパクトなデータセットを合成することを目的としている。
近年の拡散モデルの発展により, 事前学習による無訓練蒸留が可能となったが, 既存の指導戦略は限られている。
現在のスコアベースの手法は、未案内のデノゲーションを実行するか、しばしば初歩的かつ準最適である例のプロトタイプセントロイド(IPCセントロイド)への単純なモードベースのガイダンスに依存する。
そこで我々は,一貫した一貫した指導を各段階で統合するトレーニングフリー拡散ベースフレームワークManifold-Guided Distillation (ManifoldGD)を提案する。
提案手法では,VAE潜在特徴の階層的,分割的クラスタリングによって計算されたIPCを用いて,粗いセマンティックモードと細かなクラス内変数の両方をキャプチャするIPCのマルチスケールコアセットを生成する。
抽出したICCセントロイドの局所近傍を用いて,各拡散遅延時間ステップの潜在多様体を生成する。
各復調ステップにおいて、推定された潜在多様体の局所接空間にモード配向ベクトルを射影し、意味的整合性を維持しながら多様体に忠実な生成軌道を拘束する。
この定式化は、モデルの再訓練を必要とせず、代表性、多様性、画像の忠実性を向上する。
実験の結果,FID,実データ埋め込み,合成データセット埋め込み間のl2距離,分類精度の観点から,既存のトレーニングフリー・トレーニングベースラインよりも一貫したゲインを示し,ManifoldGDを最初のジオメトリ対応のトレーニングフリーデータ蒸留フレームワークとして確立した。
関連論文リスト
- Path-Guided Flow Matching for Dataset Distillation [9.761850986508895]
本稿では, 数ステップでODEを解くことで, 高速な決定論的合成を可能にする, 生成蒸留のための最初のフローマッチングに基づくフレームワークを提案する。
本研究では, ODE-consistent path control のための連続経路-プロトタイプ誘導アルゴリズムを開発し, トラジェクトリが割り当てられたプロトタイプに確実に着地できるようにする。
論文 参考訳(メタデータ) (2026-02-05T12:52:32Z) - RS-Prune: Training-Free Data Pruning at High Ratios for Efficient Remote Sensing Diffusion Foundation Models [14.093802378976315]
拡散型リモートセンシング(RS)生成基盤モデルは、多量のグローバルな代表データに依存している。
本稿では,高プルーニング率で高品質なサブセットを迅速に選択する,トレーニングフリーな2段階データプルーニング手法を提案する。
実験の結果, トレーニングデータの85%を刈り取った後も, コンバージェンスと生成品質が著しく向上することがわかった。
論文 参考訳(メタデータ) (2025-12-29T06:44:06Z) - Seeing the Whole Picture: Distribution-Guided Data-Free Distillation for Semantic Segmentation [2.314355984893946]
本稿では,セマンティックセグメンテーションに適した新しいデータフリー蒸留フレームワークDFSSを紹介する。
画素を独立に扱う従来のアプローチとは異なり、DFSSは現実世界のシーンの構造的・文脈的連続性を尊重する。
我々の重要な洞察は、教師モデルからのバッチ正規化(BN)統計を活用して、近似分布サンプリング(ADS)をガイドすることである。
論文 参考訳(メタデータ) (2025-12-15T10:37:05Z) - Nonparametric Data Attribution for Diffusion Models [57.820618036556084]
生成モデルのデータ属性は、個々のトレーニング例がモデル出力に与える影響を定量化する。
生成画像とトレーニング画像のパッチレベルの類似性によって影響を測定する非パラメトリック属性法を提案する。
論文 参考訳(メタデータ) (2025-10-16T03:37:16Z) - Restoration Score Distillation: From Corrupted Diffusion Pretraining to One-Step High-Quality Generation [82.39763984380625]
Score Distillation (DSD) の原理的一般化である textitRestoration Score Distillation (RSD) を提案する。
RSDは、ぼやけた画像、不完全画像、低解像度画像など、広範囲の汚職タイプに対応している。
自然と科学の両方のデータセットの様々な復元作業において、教師モデルを一貫して上回っている。
論文 参考訳(メタデータ) (2025-05-19T17:21:03Z) - One More Step: A Versatile Plug-and-Play Module for Rectifying Diffusion
Schedule Flaws and Enhancing Low-Frequency Controls [77.42510898755037]
One More Step (OMS) は、推論中に単純だが効果的なステップを付加したコンパクトネットワークである。
OMSは画像の忠実度を高め、トレーニングと推論の二分法を調和させ、元のモデルパラメータを保存する。
トレーニングが完了すると、同じ潜在ドメインを持つ様々な事前訓練された拡散モデルが同じOMSモジュールを共有することができる。
論文 参考訳(メタデータ) (2023-11-27T12:02:42Z) - Reflected Diffusion Models [93.26107023470979]
本稿では,データのサポートに基づいて進化する反射微分方程式を逆転する反射拡散モデルを提案する。
提案手法は,一般化されたスコアマッチング損失を用いてスコア関数を学習し,標準拡散モデルの主要成分を拡張する。
論文 参考訳(メタデータ) (2023-04-10T17:54:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。