論文の概要: Task-Specific Generative Dataset Distillation with Difficulty-Guided Sampling
- arxiv url: http://arxiv.org/abs/2507.03331v1
- Date: Fri, 04 Jul 2025 06:38:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.691226
- Title: Task-Specific Generative Dataset Distillation with Difficulty-Guided Sampling
- Title(参考訳): 難読化サンプリングによるタスク特異的な生成データセット蒸留
- Authors: Mingzhuo Li, Guang Li, Jiafeng Mao, Linfeng Ye, Takahiro Ogawa, Miki Haseyama,
- Abstract要約: データセット蒸留は、オリジナルのデータセットに匹敵するパフォーマンスを達成できるコンパクトで高品質な合成データセットを生成することを目的としている。
本稿では, 目標課題の要件をよりよく検討する難易度の概念を取り入れた, 生成データセット蒸留のためのタスク固有サンプリング戦略を提案する。
実験の結果,提案手法の有効性を実証し,他の下流タスクの性能向上の可能性を示した。
- 参考スコア(独自算出の注目度): 31.51048512214796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To alleviate the reliance of deep neural networks on large-scale datasets, dataset distillation aims to generate compact, high-quality synthetic datasets that can achieve comparable performance to the original dataset. The integration of generative models has significantly advanced this field. However, existing approaches primarily focus on aligning the distilled dataset with the original one, often overlooking task-specific information that can be critical for optimal downstream performance. In this paper, focusing on the downstream task of classification, we propose a task-specific sampling strategy for generative dataset distillation that incorporates the concept of difficulty to consider the requirements of the target task better. The final dataset is sampled from a larger image pool with a sampling distribution obtained by matching the difficulty distribution of the original dataset. A logarithmic transformation is applied as a pre-processing step to correct for distributional bias. The results of extensive experiments demonstrate the effectiveness of our method and suggest its potential for enhancing performance on other downstream tasks.
- Abstract(参考訳): 大規模データセットへのディープニューラルネットワークの依存を軽減するため、データセット蒸留は、オリジナルのデータセットと同等のパフォーマンスを達成可能な、コンパクトで高品質な合成データセットを生成することを目的としている。
生成モデルの統合はこの分野で大きく進歩した。
しかし、既存のアプローチは主に蒸留データセットと元のデータセットの整合性に重点を置いている。
本稿では, 下流の分類課題に着目し, 対象課題の要件をよりよく検討する難易度の概念を取り入れた, 生成データセット蒸留のためのタスク固有サンプリング戦略を提案する。
最終データセットは、元のデータセットの難易度分布に一致するサンプリング分布を有するより大きな画像プールからサンプリングされる。
対数変換を前処理ステップとして適用して分布バイアスを補正する。
実験の結果,提案手法の有効性を実証し,他の下流タスクの性能向上の可能性を示した。
関連論文リスト
- Dataset Distillation via Committee Voting [21.018818924580877]
我々は$bf C$ommittee $bf V$oting for $bf D$ataset $bf D$istillation (CV-DD)を紹介する。
CV-DDは、複数のモデルや専門家の集合知を利用して高品質な蒸留データセットを作成する新しいアプローチである。
論文 参考訳(メタデータ) (2025-01-13T18:59:48Z) - Adaptive Dataset Quantization [2.0105434963031463]
適応データセット量子化(ADQ)という,データセット圧縮のための汎用フレームワークを導入する。
本稿では,生成したビンの代表性スコア,多様性スコア,重要度スコアの評価を通じて,新しい適応型サンプリング戦略を提案する。
提案手法は, 異なるアーキテクチャにまたがる優れた一般化能力を示すだけでなく, 各種データセットにおいてDQを平均3%越えて, 最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-12-22T07:08:29Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Not All Samples Should Be Utilized Equally: Towards Understanding and Improving Dataset Distillation [57.6797306341115]
我々は,サンプル難易度の観点から,マッチングに基づくDD手法の理解に向けて最初の一歩を踏み出した。
次に、データプルーニングのニューラルネットワークスケーリング法則をDDに拡張し、これらのマッチングベースの手法を理論的に説明する。
SDC(Sampple Difficulty Correction)アプローチを導入し、より簡単なサンプルを生成して、より高いデータセット品質を実現する。
論文 参考訳(メタデータ) (2024-08-22T15:20:32Z) - Group Distributionally Robust Dataset Distillation with Risk Minimization [17.05513836324578]
本稿では,クラスタリングとリスク尺度の最小化を組み合わせ,DDを遂行する損失を最小化するアルゴリズムを提案する。
我々は、我々のアプローチに理論的根拠を与え、その効果的な一般化と部分群間のロバスト性を示す。
論文 参考訳(メタデータ) (2024-02-07T09:03:04Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。