論文の概要: SAS: Semantic-aware Sampling for Generative Dataset Distillation
- arxiv url: http://arxiv.org/abs/2605.18012v1
- Date: Mon, 18 May 2026 08:05:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.099996
- Title: SAS: Semantic-aware Sampling for Generative Dataset Distillation
- Title(参考訳): SAS: 生成データセット蒸留のための意味認識サンプリング
- Authors: Mingzhuo Li, Guang Li, Linfeng Ye, Jiafeng Mao, Takahiro Ogawa, Konstantinos N. Plataniotis, Miki Haseyama,
- Abstract要約: 本稿では,コントラスト言語-画像事前学習(CLIP)をポストサンプリングのセマンティクスとして活用することで,データセット蒸留のセマンティック・アウェア・パースペクティブを導入する。
我々のゴールは、コンパクトであるだけでなく、意味的にクラス差別的で多様である蒸留データセットを得ることです。
- 参考スコア(独自算出の注目度): 55.27114962330541
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks have achieved impressive performance across a wide range of tasks, but this success often comes with substantial computational and storage costs due to large-scale training data. Dataset distillation addresses this challenge by constructing compact yet informative datasets that enable efficient model training while maintaining downstream performance. However, most existing approaches primarily emphasize matching data distributions or downstream training statistics, with limited attention to preserving high-level semantic information in the distilled data. In this work, we introduce a semantic-aware perspective for dataset distillation by leveraging Contrastive Language-Image Pretraining (CLIP) as a semantic prior for post-sampling. Our goal is to obtain distilled datasets that are not only compact but also semantically class-discriminative and diverse. To this end, we design three semantic scoring functions that quantify class relevance, inter-class separability, and intra-set diversity in a pretrained semantic space. Based on image pools generated by existing distillation methods, we further develop a two-stage strategy for effective sampling: the first stage filters semantically discriminative samples to form a reliable candidate set, and the second stage performs a dynamic diversity-aware selection to reduce redundancy while preserving semantic coverage. Extensive experiments across multiple datasets, image pools, and downstream models demonstrate consistent performance gains, highlighting the effectiveness of incorporating semantic information into dataset distillation.
- Abstract(参考訳): ディープニューラルネットワークは、幅広いタスクで素晴らしいパフォーマンスを実現していますが、大規模なトレーニングデータのために、計算とストレージの大幅なコストが伴います。
データセットの蒸留は、下流のパフォーマンスを維持しながら効率的なモデルトレーニングを可能にするコンパクトで情報に富んだデータセットを構築することで、この課題に対処する。
しかし、既存のほとんどのアプローチは、主にデータ分布や下流のトレーニング統計のマッチングに重点を置いており、蒸留データ内の高レベルなセマンティック情報を保存することに注意を払っている。
本研究では,コントラスト言語-画像事前学習(CLIP)をポストサンプリングのセマンティクスとして活用することで,データセット蒸留のセマンティック・アウェア・パースペクティブを導入する。
我々のゴールは、コンパクトであるだけでなく、意味的にクラス差別的で多様である蒸留データセットを得ることです。
この目的のために,事前訓練された意味空間におけるクラス関連性,クラス間分離可能性,およびセット内多様性を定量化する3つのセマンティックスコアリング関数を設計する。
既存の蒸留法により生成された画像プールに基づいて, 有効サンプリングのための2段階の戦略を更に展開する。第1段階のフィルタは, セマンティックに識別可能なサンプルを抽出し, 信頼性の高い候補集合を形成する。
複数のデータセット、イメージプール、下流モデルにわたる大規模な実験は、一貫性のあるパフォーマンス向上を示し、セマンティック情報をデータセットの蒸留に組み込むことの有効性を強調している。
関連論文リスト
- Learnability-Guided Diffusion for Dataset Distillation [51.56484100374058]
本稿では, 連続的な段階を通して段階的に合成データセットを構成する学習可能性駆動型データセット蒸留法を提案する。
本稿では,学習可能性誘導拡散(LGD)について紹介する。これは,現在のモデルのトレーニングユーティリティと基準モデルの下での妥当性のバランスをとり,カリキュラムに整合したサンプルを生成する。
提案手法は,トレーニング段階間の専門化を促進し,ImageNet-1K (60.1%), ImageNette (87.2%), ImageWoof (72.9%) の最先端結果を実現する。
論文 参考訳(メタデータ) (2026-04-01T06:04:59Z) - Boost Self-Supervised Dataset Distillation via Parameterization, Predefined Augmentation, and Approximation [19.552569546864913]
本稿では,画像とその自己教師付き表現を蒸留セットに蒸留する手法を提案する。
この方法では、実データセットからリッチな情報を効果的に抽出し、クロスアーキテクチャの一般化性を高めた蒸留セットを得る。
特に、異なる低次元の基底を用いて、画像や表現に革新的なパラメータ化を導入する。
論文 参考訳(メタデータ) (2025-07-29T02:51:56Z) - Task-Specific Generative Dataset Distillation with Difficulty-Guided Sampling [31.51048512214796]
データセット蒸留は、オリジナルのデータセットに匹敵するパフォーマンスを達成できるコンパクトで高品質な合成データセットを生成することを目的としている。
本稿では, 目標課題の要件をよりよく検討する難易度の概念を取り入れた, 生成データセット蒸留のためのタスク固有サンプリング戦略を提案する。
実験の結果,提案手法の有効性を実証し,他の下流タスクの性能向上の可能性を示した。
論文 参考訳(メタデータ) (2025-07-04T06:38:02Z) - Dataset Distillation as Pushforward Optimal Quantization [2.5892916589735457]
そこで本研究では,実データ上での学習に類似した性能を,桁違いに少ない計算量で実現した合成トレーニングセットを提案する。
特に、既存の非絡み合ったデータセット蒸留法を古典的最適量子化とワッサーシュタインのバリセンタ問題にリンクする。
我々は,ImageNet-1Kデータセットの性能向上とモデル間一般化を,より簡単な追加計算で実現し,より高階のイメージ・パー・クラス・セッティングにおけるSOTA性能を向上する。
論文 参考訳(メタデータ) (2025-01-13T20:41:52Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - On the Trade-off of Intra-/Inter-class Diversity for Supervised
Pre-training [72.8087629914444]
教師付き事前学習データセットのクラス内多様性(クラス毎のサンプル数)とクラス間多様性(クラス数)とのトレードオフの影響について検討した。
トレーニング前のデータセットのサイズが固定された場合、最高のダウンストリームのパフォーマンスは、クラス内/クラス間の多様性のバランスがとれる。
論文 参考訳(メタデータ) (2023-05-20T16:23:50Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。