論文の概要: Difficulty-guided Sampling: Bridging the Target Gap between Dataset Distillation and Downstream Tasks
- arxiv url: http://arxiv.org/abs/2601.10090v1
- Date: Thu, 15 Jan 2026 05:29:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.004964
- Title: Difficulty-guided Sampling: Bridging the Target Gap between Dataset Distillation and Downstream Tasks
- Title(参考訳): 困難誘導サンプリング:データセット蒸留と下流タスク間のターゲットギャップをブリッジする
- Authors: Mingzhuo Li, Guang Li, Linfeng Ye, Jiafeng Mao, Takahiro Ogawa, Konstantinos N. Plataniotis, Miki Haseyama,
- Abstract要約: そこで本研究では,蒸留目標と下流タスクの目標ギャップを埋めるために,DGS(D difficult-guided sample)を提案する。
ディープニューラルネットワークは目覚ましいパフォーマンスを達成するが、時間とストレージを消費するトレーニングプロセスがある。
- 参考スコア(独自算出の注目度): 55.27114962330541
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose difficulty-guided sampling (DGS) to bridge the target gap between the distillation objective and the downstream task, therefore improving the performance of dataset distillation. Deep neural networks achieve remarkable performance but have time and storage-consuming training processes. Dataset distillation is proposed to generate compact, high-quality distilled datasets, enabling effective model training while maintaining downstream performance. Existing approaches typically focus on features extracted from the original dataset, overlooking task-specific information, which leads to a target gap between the distillation objective and the downstream task. We propose leveraging characteristics that benefit the downstream training into data distillation to bridge this gap. Focusing on the downstream task of image classification, we introduce the concept of difficulty and propose DGS as a plug-in post-stage sampling module. Following the specific target difficulty distribution, the final distilled dataset is sampled from image pools generated by existing methods. We also propose difficulty-aware guidance (DAG) to explore the effect of difficulty in the generation process. Extensive experiments across multiple settings demonstrate the effectiveness of the proposed methods. It also highlights the broader potential of difficulty for diverse downstream tasks.
- Abstract(参考訳): 本稿では, 蒸留目標と下流タスクの目標ギャップを埋めることにより, データセット蒸留の性能を向上させることを目的としたDGSを提案する。
ディープニューラルネットワークは目覚ましいパフォーマンスを達成するが、時間とストレージを消費するトレーニングプロセスがある。
下流性能を維持しながら効果的なモデルトレーニングを可能にする,コンパクトで高品質な蒸留データセットを生成するために,データセット蒸留を提案する。
既存のアプローチは、通常、元のデータセットから抽出された特徴に注目し、タスク固有の情報を見渡す。
本稿では,このギャップを埋めるために,下流での訓練をデータ蒸留に活用する手法を提案する。
画像分類の下流課題に着目し,難易度の概念を導入し,DGSをプラグイン後サンプリングモジュールとして提案する。
特定の目的の難易度分布に続いて、既存の方法で生成された画像プールから最終蒸留データセットをサンプリングする。
また、生成過程における難易度の影響を探索するための難易度誘導(DAG)を提案する。
複数の設定にまたがる実験により,提案手法の有効性が示された。
また、多様な下流タスクの難しさの可能性を浮き彫りにしている。
関連論文リスト
- Task-Specific Generative Dataset Distillation with Difficulty-Guided Sampling [31.51048512214796]
データセット蒸留は、オリジナルのデータセットに匹敵するパフォーマンスを達成できるコンパクトで高品質な合成データセットを生成することを目的としている。
本稿では, 目標課題の要件をよりよく検討する難易度の概念を取り入れた, 生成データセット蒸留のためのタスク固有サンプリング戦略を提案する。
実験の結果,提案手法の有効性を実証し,他の下流タスクの性能向上の可能性を示した。
論文 参考訳(メタデータ) (2025-07-04T06:38:02Z) - Not All Samples Should Be Utilized Equally: Towards Understanding and Improving Dataset Distillation [57.6797306341115]
我々は,サンプル難易度の観点から,マッチングに基づくDD手法の理解に向けて最初の一歩を踏み出した。
次に、データプルーニングのニューラルネットワークスケーリング法則をDDに拡張し、これらのマッチングベースの手法を理論的に説明する。
SDC(Sampple Difficulty Correction)アプローチを導入し、より簡単なサンプルを生成して、より高いデータセット品質を実現する。
論文 参考訳(メタデータ) (2024-08-22T15:20:32Z) - ATOM: Attention Mixer for Efficient Dataset Distillation [17.370852204228253]
本研究では,チャネルと空間的注意の混合を用いて,大規模データセットを効率よく抽出するモジュールを提案する。
どちらのタイプの注目も統合することで、ATOMモジュールは様々なコンピュータビジョンデータセットにまたがる優れた性能を示す。
論文 参考訳(メタデータ) (2024-05-02T15:15:01Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。
蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。
蒸留における因果関係から最も寄与した試料を見出した。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - A Comprehensive Survey of Dataset Distillation [73.15482472726555]
限られた計算能力で無制限に成長するデータを扱うことは困難になっている。
ディープラーニング技術はこの10年で前例のない発展を遂げた。
本稿では,多面的なデータセット蒸留の総合的な理解を提供する。
論文 参考訳(メタデータ) (2023-01-13T15:11:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。