論文の概要: Dataset Distillation for Pre-Trained Self-Supervised Vision Models
- arxiv url: http://arxiv.org/abs/2511.16674v1
- Date: Thu, 20 Nov 2025 18:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.819205
- Title: Dataset Distillation for Pre-Trained Self-Supervised Vision Models
- Title(参考訳): 事前学習型自己監督型視覚モデルのためのデータセット蒸留
- Authors: George Cazenavette, Antonio Torralba, Vincent Sitzmann,
- Abstract要約: データセットの蒸留は、モデルのトレーニングが実際のサンプルのより大きなデータセットでトレーニングされた同じモデルのパフォーマンスを再現するような、小さな合成画像のセットを見つけることを目的としている。
線形勾配マッチング(Linear Gradient Matching)と呼ばれる課題に対して,データセットの蒸留法を導入する。
提案手法は,すべての実像ベースラインを上回り,事前学習された視覚モデルに対して顕著に一般化する合成データを生成する。
- 参考スコア(独自算出の注目度): 43.50190223507616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The task of dataset distillation aims to find a small set of synthetic images such that training a model on them reproduces the performance of the same model trained on a much larger dataset of real samples. Existing distillation methods focus on synthesizing datasets that enable training randomly initialized models. In contrast, state-of-the-art vision approaches are increasingly building on large, pre-trained self-supervised models rather than training from scratch. In this paper, we investigate the problem of distilling datasets that enable us to optimally train linear probes on top of such large, pre-trained vision models. We introduce a method of dataset distillation for this task called Linear Gradient Matching that optimizes the synthetic images such that, when passed through a pre-trained feature extractor, they induce gradients in the linear classifier similar to those produced by the real data. Our method yields synthetic data that outperform all real-image baselines and, remarkably, generalize across pre-trained vision models, enabling us, for instance, to train a linear CLIP probe that performs competitively using a dataset distilled via a DINO backbone. Further, we show that our distilled datasets are exceptionally effective for fine-grained classification and provide a valuable tool for model interpretability, predicting, among other things, how similar two models' embedding spaces are under the platonic representation hypothesis or whether a model is sensitive to spurious correlations in adversarial datasets.
- Abstract(参考訳): データセット蒸留の課題は、モデルのトレーニングが実際のサンプルのより大きなデータセットでトレーニングされた同じモデルのパフォーマンスを再現する、小さな合成画像を見つけることを目的としている。
既存の蒸留法は、ランダムに初期化されたモデルのトレーニングを可能にするデータセットの合成に重点を置いている。
対照的に、最先端のビジョンアプローチは、スクラッチからトレーニングするのではなく、大規模で事前訓練された自己管理モデル上に構築されている。
本稿では,このような大規模で事前学習された視覚モデル上に線形プローブを最適に訓練することのできるデータセットの蒸留問題について検討する。
本研究では, この課題に対するデータセット蒸留手法である線形勾配マッチング(Linear Gradient Matching)を導入し, 事前学習した特徴抽出器を通過すると, 実データに類似した線形分類器の勾配を誘導する合成画像を最適化する。
提案手法は, 実像ベースラインを全て上回り, 驚くほど, 事前学習された視覚モデルにまたがって一般化する合成データを出力し, 例えば, DINOバックボーンで蒸留したデータセットを用いて, 競合的に動作する線形CLIPプローブを訓練することを可能にする。
さらに, 蒸留したデータセットは, 微粒化に極めて有効であることが示され, モデル解釈可能性, 予測, モデル埋め込み空間がプラトニックな表現仮説の下にあるか, あるいは, モデルが敵対的データセットの刺激的相関に敏感であるかなど, モデル解釈可能性, 予測に有用なツールが提供される。
関連論文リスト
- Contrastive Learning-Enhanced Trajectory Matching for Small-Scale Dataset Distillation [0.7560883489000576]
画像合成におけるコントラスト学習を統合した新しいデータセット蒸留法を提案する。
提案手法は,データセットのサイズが著しく制約された場合でも,より情報的かつ多様な合成サンプルを生成する。
論文 参考訳(メタデータ) (2025-05-21T08:46:29Z) - Dataset Distillation with Probabilistic Latent Features [9.318549327568695]
合成データのコンパクトなセットは、下流の分類タスクにおける元のデータセットを効果的に置き換えることができる。
本稿では,潜在特徴の共分散をモデル化する新しい手法を提案する。
提案手法は,バックボーンアーキテクチャにまたがる最先端のクロスアーキテクチャ性能を実現する。
論文 参考訳(メタデータ) (2025-05-10T13:53:49Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - The Big Data Myth: Using Diffusion Models for Dataset Generation to
Train Deep Detection Models [0.15469452301122172]
本研究では, 微調整型安定拡散モデルによる合成データセット生成のための枠組みを提案する。
本研究の結果から, 合成データを用いた物体検出モデルは, ベースラインモデルと同じような性能を示すことが明らかとなった。
論文 参考訳(メタデータ) (2023-06-16T10:48:52Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Dataset Distillation by Matching Training Trajectories [75.9031209877651]
そこで本研究では,実データと同じような状態にネットワークを誘導するために,蒸留データを最適化する新しい定式化を提案する。
ネットワークが与えられたら、蒸留データを何回か繰り返して訓練し、合成訓練されたパラメータと実データで訓練されたパラメータとの距離に関して蒸留データを最適化する。
本手法は既存の手法よりも優れており,高解像度の視覚データを蒸留することができる。
論文 参考訳(メタデータ) (2022-03-22T17:58:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。