論文の概要: Optimizing Distributional Geometry Alignment with Optimal Transport for Generative Dataset Distillation
- arxiv url: http://arxiv.org/abs/2512.00308v1
- Date: Sat, 29 Nov 2025 04:04:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.163058
- Title: Optimizing Distributional Geometry Alignment with Optimal Transport for Generative Dataset Distillation
- Title(参考訳): 生成データセット蒸留のための最適輸送による分布形状調整の最適化
- Authors: Xiao Cui, Yulei Qin, Wengang Zhou, Hongsheng Li, Houqiang Li,
- Abstract要約: 最適輸送(OT)距離最小化問題としてデータセット蒸留を再構成する。
OTは分布マッチングのための幾何学的に忠実なフレームワークを提供する。
提案手法は, 常に最先端の手法を効率よく上回っている。
- 参考スコア(独自算出の注目度): 109.13471554184554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dataset distillation seeks to synthesize a compact distilled dataset, enabling models trained on it to achieve performance comparable to models trained on the full dataset. Recent methods for large-scale datasets focus on matching global distributional statistics (e.g., mean and variance), but overlook critical instance-level characteristics and intraclass variations, leading to suboptimal generalization. We address this limitation by reformulating dataset distillation as an Optimal Transport (OT) distance minimization problem, enabling fine-grained alignment at both global and instance levels throughout the pipeline. OT offers a geometrically faithful framework for distribution matching. It effectively preserves local modes, intra-class patterns, and fine-grained variations that characterize the geometry of complex, high-dimensional distributions. Our method comprises three components tailored for preserving distributional geometry: (1) OT-guided diffusion sampling, which aligns latent distributions of real and distilled images; (2) label-image-aligned soft relabeling, which adapts label distributions based on the complexity of distilled image distributions; and (3) OT-based logit matching, which aligns the output of student models with soft-label distributions. Extensive experiments across diverse architectures and large-scale datasets demonstrate that our method consistently outperforms state-of-the-art approaches in an efficient manner, achieving at least 4% accuracy improvement under IPC=10 settings for each architecture on ImageNet-1K.
- Abstract(参考訳): データセット蒸留は、コンパクトな蒸留データセットを合成し、トレーニングされたモデルが、フルデータセットでトレーニングされたモデルに匹敵するパフォーマンスを達成することを可能にする。
大規模データセットの最近の手法は,グローバルな分布統計(平均値と分散値)のマッチングに重点を置いている。
この制限は、データセット蒸留を最適輸送(OT)距離最小化問題として修正し、パイプライン全体のグローバルおよびインスタンスレベルの微粒化アライメントを可能にする。
OTは分布マッチングのための幾何学的に忠実なフレームワークを提供する。
局所モード、クラス内パターン、複雑な高次元分布の幾何学を特徴づけるきめ細かい変化を効果的に保存する。
提案手法は,(1)実画像と蒸留画像の潜時分布を整列するOT誘導拡散サンプリング,(2)蒸留画像の複雑性に基づいてラベル分布を適応するラベル対応ソフトレバーベリング,(3)ソフトラベル分布と学生モデルの出力を整列するOTベースロジットマッチングの3成分からなる。
多様なアーキテクチャと大規模データセットにわたる大規模な実験により、我々の手法は、ImageNet-1K上の各アーキテクチャのIPC=10設定で少なくとも4%の精度向上を実現し、常に最先端のアプローチを効率良く上回ることを示した。
関連論文リスト
- Dataset Distillation with Probabilistic Latent Features [9.318549327568695]
合成データのコンパクトなセットは、下流の分類タスクにおける元のデータセットを効果的に置き換えることができる。
本稿では,潜在特徴の共分散をモデル化する新しい手法を提案する。
提案手法は,バックボーンアーキテクチャにまたがる最先端のクロスアーキテクチャ性能を実現する。
論文 参考訳(メタデータ) (2025-05-10T13:53:49Z) - DELT: A Simple Diversity-driven EarlyLate Training for Dataset Distillation [23.02066055996762]
本稿では,バッチ・ツー・グロバルマッチングにおける画像の多様性を高めるため,多様性駆動型早期学習(DELT)方式を提案する。
我々のアプローチは概念的には単純だが有効であり、事前に定義されたIPCサンプルを小さなサブタスクに分割し、局所的な最適化を用いる。
我々のアプローチは、異なるデータセットとIPC(クラスごとのイメージ)で平均2$sim$5%の先行技術よりも優れています。
論文 参考訳(メタデータ) (2024-11-29T18:59:46Z) - Distribution-Aware Data Expansion with Diffusion Models [55.979857976023695]
本研究では,分散型拡散モデルに基づくトレーニングフリーなデータ拡張フレームワークであるDistDiffを提案する。
DistDiffは、オリジナルデータのみにトレーニングされたモデルと比較して、さまざまなデータセットの精度を一貫して向上させる。
論文 参考訳(メタデータ) (2024-03-11T14:07:53Z) - RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。
合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。
さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文 参考訳(メタデータ) (2023-10-18T07:30:08Z) - Neighborhood Gradient Clustering: An Efficient Decentralized Learning
Method for Non-IID Data Distributions [5.340730281227837]
現在の最先端の分散アルゴリズムは、主にデータ分散が独立的で、明確に分散していると仮定している。
textitNeighborhood Gradient Clustering (NGC) は,各エージェントの局所勾配を自己および横断的情報を用いて修正する,分散学習アルゴリズムである。
論文 参考訳(メタデータ) (2022-09-28T19:28:54Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。