論文の概要: Dataset Distillation via Relative Distribution Matching and Cognitive Heritage
- arxiv url: http://arxiv.org/abs/2602.05391v1
- Date: Thu, 05 Feb 2026 07:18:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.812075
- Title: Dataset Distillation via Relative Distribution Matching and Cognitive Heritage
- Title(参考訳): 相対分布マッチングと認知遺産によるデータセット蒸留
- Authors: Qianxin Xia, Jiawei Du, Yuhan Zhang, Jielei Wang, Guoming Lu,
- Abstract要約: 安定かつ効率的な教師付き学習フレームワークである統計フローマッチングを導入する。
提案手法は, 生データのみをロードし, 合成データに1つの拡張パスを実行する。
- 参考スコア(独自算出の注目度): 22.61595713543967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dataset distillation seeks to synthesize a highly compact dataset that achieves performance comparable to the original dataset on downstream tasks. For the classification task that use pre-trained self-supervised models as backbones, previous linear gradient matching optimizes synthetic images by encouraging them to mimic the gradient updates induced by real images on the linear classifier. However, this batch-level formulation requires loading thousands of real images and applying multiple rounds of differentiable augmentations to synthetic images at each distillation step, leading to substantial computational and memory overhead. In this paper, we introduce statistical flow matching , a stable and efficient supervised learning framework that optimizes synthetic images by aligning constant statistical flows from target class centers to non-target class centers in the original data. Our approach loads raw statistics only once and performs a single augmentation pass on the synthetic data, achieving performance comparable to or better than the state-of-the-art methods with 10x lower GPU memory usage and 4x shorter runtime. Furthermore, we propose a classifier inheritance strategy that reuses the classifier trained on the original dataset for inference, requiring only an extremely lightweight linear projector and marginal storage while achieving substantial performance gains.
- Abstract(参考訳): データセット蒸留は、下流タスクのオリジナルのデータセットに匹敵するパフォーマンスを実現する、非常にコンパクトなデータセットの合成を目指している。
事前学習された自己教師付きモデルをバックボーンとして使用する分類タスクでは、以前の線形勾配マッチングは、線形分類器上の実画像によって誘導される勾配更新を模倣するように促して合成画像を最適化する。
しかし、このバッチレベルの定式化では、何千もの実像をロードし、蒸留工程ごとに合成画像に複数ラウンドの微分可能な拡張を加える必要があり、計算とメモリのオーバーヘッドが大幅に増大する。
本稿では,対象とするクラスセンターからターゲット以外のクラスセンターへ一定の統計フローを整列させることにより,合成画像の最適化を行う,安定かつ効率的な教師付き学習フレームワークである統計フローマッチングを導入する。
提案手法は,1回だけ生の統計データをロードし,合成データに1つの拡張パスを実行し,GPUメモリ使用率を10倍に抑え,実行時間を4倍に短縮した最先端の手法に匹敵する性能を実現する。
さらに,推定のために,元のデータセットで訓練された分類器を再利用し,極めて軽量な線形プロジェクタと限界ストレージのみを必要とする分類器の継承戦略を提案する。
関連論文リスト
- Dataset Distillation for Pre-Trained Self-Supervised Vision Models [43.50190223507616]
データセットの蒸留は、モデルのトレーニングが実際のサンプルのより大きなデータセットでトレーニングされた同じモデルのパフォーマンスを再現するような、小さな合成画像のセットを見つけることを目的としている。
線形勾配マッチング(Linear Gradient Matching)と呼ばれる課題に対して,データセットの蒸留法を導入する。
提案手法は,すべての実像ベースラインを上回り,事前学習された視覚モデルに対して顕著に一般化する合成データを生成する。
論文 参考訳(メタデータ) (2025-11-20T18:59:57Z) - Dataset Distillation with Probabilistic Latent Features [9.318549327568695]
合成データのコンパクトなセットは、下流の分類タスクにおける元のデータセットを効果的に置き換えることができる。
本稿では,潜在特徴の共分散をモデル化する新しい手法を提案する。
提案手法は,バックボーンアーキテクチャにまたがる最先端のクロスアーキテクチャ性能を実現する。
論文 参考訳(メタデータ) (2025-05-10T13:53:49Z) - Efficient Dataset Distillation via Diffusion-Driven Patch Selection for Improved Generalization [34.53986517177061]
本稿では, 既存の拡散式蒸留法に対する新しい枠組みを提案し, 生成ではなく拡散モデルを用いて選択する。
提案手法は,入力画像とテキストプロンプトに基づいて拡散モデルから発生するノイズを予測し,各ペアの損失を算出する。
この合理化フレームワークは単一段階の蒸留プロセスを実現するとともに,我々の手法が様々なメトリクスにわたって最先端の手法より優れていることを示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-12-13T08:34:46Z) - Heavy Labels Out! Dataset Distillation with Label Space Lightening [69.67681224137561]
HeLlOは、合成画像から直接合成ラベルをオンラインで生成できる効果的な画像-ラベルプロジェクタを目指している。
ソフトラベルの完全なセットに必要な元のストレージの0.003%しか必要とせず、大規模データセット上での現在の最先端データセット蒸留法と同等のパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2024-08-15T15:08:58Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Generalizing Dataset Distillation via Deep Generative Prior [75.9031209877651]
本稿では,データセット全体の知識をいくつかの合成画像に抽出することを提案する。
このアイデアは、学習アルゴリズムにトレーニングデータとして与えられる少数の合成データポイントを合成し、結果として元のデータに基づいてトレーニングされたデータを近似するモデルを構築する。
生成モデルの潜在空間における複数の中間特徴ベクトルに多数の画像を蒸留する新しい最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-02T17:59:31Z) - Minimizing the Accumulated Trajectory Error to Improve Dataset
Distillation [151.70234052015948]
本稿では,フラットな軌道を求める最適化アルゴリズムを提案する。
合成データに基づいてトレーニングされた重みは、平坦な軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。
本手法はFTD (Flat Trajectory Distillation) と呼ばれ, 勾配整合法の性能を最大4.7%向上させる。
論文 参考訳(メタデータ) (2022-11-20T15:49:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。