論文の概要: Rethinking Dataset Distillation: Hard Truths about Soft Labels
- arxiv url: http://arxiv.org/abs/2604.18811v1
- Date: Mon, 20 Apr 2026 20:29:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.47672
- Title: Rethinking Dataset Distillation: Hard Truths about Soft Labels
- Title(参考訳): データセット蒸留を再考する - ソフトラベルに関する難しい真実
- Authors: Priyam Dey, Aditya Sahdev, Sunny Bhati, Konda Reddy Mopuri, R. Venkatesh Babu,
- Abstract要約: SLとSL+KDの双方において、高品質コアセットがランダムベースラインを確実に上回らないことを示す。
この性能飽和度は,モデル評価にソフトラベルを用いることの広範な実践に疑問を呈する。
CAD-Pruneは、与えられた計算予算に対して最適な困難サンプルを効率的に識別する計算対応プルーニング指標である。
- 参考スコア(独自算出の注目度): 24.157901502576394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the perceived success of large-scale dataset distillation (DD) methods, recent evidence finds that simple random image baselines perform on-par with state-of-theart DD methods like SRe2L due to the use of soft labels during downstream model training. This is in contrast with the findings in coreset literature, where high-quality coresets consistently outperform random subsets in the hardlabel (HL) setting. To understand this discrepancy, we perform a detailed scalability analysis to examine the role of data quality under different label regimes, ranging from abundant soft labels (termed as SL+KD regime) to fixed soft labels (SL) and hard labels (HL). Our analysis reveals that high-quality coresets fail to convincingly outperform the random baseline in both SL and SL+KD regimes. In the SL+KD setting, performance further approaches nearoptimal levels relative to the full dataset, regardless of subset size or quality, for a given compute budget. This performance saturation calls into question the widespread practice of using soft labels for model evaluation, where unlike the HL setting, subset quality has negligible influence. A subsequent systematic evaluation of five large-scale and four small-scale DD methods in the HL setting reveals that only RDED reliably outperforms random baselines on ImageNet-1K, but can still lag behind strong coreset methods due to its over-reliance on easy sample patches. Based on this, we introduce CAD-Prune, a compute-aware pruning metric that efficiently identifies samples of optimal difficulty for a given compute budget, and use it to develop CA2D, a compute-aligned DD method, outperforming current DD methods on ImageNet-1K at various IPC settings. Together, our findings uncover many insights into current DD research and establish useful tools to advance dataefficient learning for both coresets and DD.
- Abstract(参考訳): 大規模なデータセット蒸留(DD)法の成功は認識されているが、近年の証拠は、下流モデルトレーニング中にソフトラベルを使用することにより、SRe2Lのような最先端DD法と単純なランダム画像ベースラインが同等に機能することを発見した。
これは、高品質なコアセットがハードラベル(HL)設定におけるランダムなサブセットを一貫して上回るコアセット文学の発見とは対照的である。
この相違を理解するために、我々は、SL+KDレギュレーションと呼ばれる豊富なソフトラベルから、固定ソフトラベル(SL)やハードラベル(HL)まで、様々なラベル体制下でのデータ品質の役割を調べるために、詳細なスケーラビリティ解析を行う。
解析の結果,SLとSL+KDの双方において,高品質コアセットがランダムベースラインを確実に上回らないことが明らかとなった。
SL+KD設定では、所定の計算予算に対して、サブセットのサイズや品質に関わらず、パフォーマンスは完全なデータセットと比較してほぼ最適レベルに近づく。
この性能飽和は、HL設定とは異なり、サブセットの品質が無視できるようなモデル評価にソフトラベルを使うことの一般的な実践に疑問を投げかける。
HL設定における5つの大規模および4つの小規模DD手法の体系的評価により、RDEDのみがImageNet-1Kのランダムベースラインを確実に上回るが、簡単なサンプルパッチへの過度な依存のため、強力なコアセット手法を遅れる可能性があることが明らかになった。
CAD-Pruneは,与えられた計算予算に対して最適な難易度サンプルを効率よく同定し,計算整合DD法であるCA2Dの開発に利用し,様々なIPC設定でImageNet-1K上の現在のDD法より優れた性能を示す。
この結果から,現在のDD研究における多くの知見が得られ,コアセットとDDの双方において,データ効率の学習を促進する有用なツールが確立された。
関連論文リスト
- Coresets from Trajectories: Selecting Data via Correlation of Loss Differences [14.31847187460321]
損失差の相関(CLD)は、コアセット選択のためのスケーラブルな計量である。
CIFAR-100 と ImageNet-1k では、CLD ベースのコアセットは一般的に最先端の手法よりも優れ、あるいは密に一致している。
論文 参考訳(メタデータ) (2025-08-27T19:18:39Z) - AHDMIL: Asymmetric Hierarchical Distillation Multi-Instance Learning for Fast and Accurate Whole-Slide Image Classification [51.525891360380285]
AHDMILは非対称な階層的蒸留マルチインスタンス学習フレームワークである。
2段階のトレーニングプロセスを通じて、無関係なパッチを排除します。
分類性能と推論速度の両方において、従来の最先端手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-08-07T07:47:16Z) - Not All Samples Should Be Utilized Equally: Towards Understanding and Improving Dataset Distillation [57.6797306341115]
我々は,サンプル難易度の観点から,マッチングに基づくDD手法の理解に向けて最初の一歩を踏み出した。
次に、データプルーニングのニューラルネットワークスケーリング法則をDDに拡張し、これらのマッチングベースの手法を理論的に説明する。
SDC(Sampple Difficulty Correction)アプローチを導入し、より簡単なサンプルを生成して、より高いデータセット品質を実現する。
論文 参考訳(メタデータ) (2024-08-22T15:20:32Z) - Towards Sustainable Learning: Coresets for Data-efficient Deep Learning [9.51481812606879]
CRESTは、データセットに関する厳密な理論的サブセット実験を備えた、最初のスケーラブルなサブセットディープネットワークフレームワークである。
CRESTは、非イメージ関数の最も価値のある例を特定している。
論文 参考訳(メタデータ) (2023-06-02T02:51:08Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z) - Unsupervised Domain Adaptive Salient Object Detection Through
Uncertainty-Aware Pseudo-Label Learning [104.00026716576546]
そこで本研究では,手動のアノテーションを使わずに,自然に高いピクセルラベル品質を有する合成・クリーンなラベルから,サリエンスを学習することを提案する。
提案手法は,複数のベンチマークデータセット上で,既存の最先端の深層教師なしSOD法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-02-26T16:03:55Z) - Active Learning at the ImageNet Scale [43.595076693347835]
本研究では,画像ネット上でのアクティブラーニング(AL)と事前学習(SSP)の組み合わせについて検討する。
学習者が選択したクラス不均衡なサンプルから,小型の玩具データセットのパフォーマンスがImageNetのパフォーマンスを表すものではないことが判明した。
本稿では、ランダムサンプリングを一貫して上回る、単純でスケーラブルなALアルゴリズムであるBa balanced Selection (BASE)を提案する。
論文 参考訳(メタデータ) (2021-11-25T02:48:51Z) - RETRIEVE: Coreset Selection for Efficient and Robust Semi-Supervised
Learning [9.155410614399159]
効率的で堅牢な半教師付き学習のためのコアセット選択フレームワークであるRETRIEVEを提案する。
我々は,RETRIEVEが従来のSSL設定で約3倍の高速化を実現し,最先端(SOTA)の堅牢なSSLアルゴリズムと比較して5倍の高速化を実現していることを示す。
論文 参考訳(メタデータ) (2021-06-14T21:18:47Z) - Least Squares Regression with Markovian Data: Fundamental Limits and
Algorithms [69.45237691598774]
マルコフ連鎖からデータポイントが依存しサンプリングされる最小二乗線形回帰問題について検討する。
この問題を$tau_mathsfmix$という観点から、鋭い情報理論のミニマックス下限を確立する。
本稿では,経験的リプレイに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-16T04:26:50Z) - Deep Active Learning for Biased Datasets via Fisher Kernel
Self-Supervision [5.352699766206807]
アクティブラーニング(AL)は、データ要求型ディープニューラルネットワーク(DNN)のラベル付け作業を最小化する
自己教師型フィッシャーカーネル(FK)を用いた特徴密度マッチングのための低複雑さ手法を提案する。
本手法は,MNIST,SVHN,ImageNetの分類において,処理の1/10しか必要とせず,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2020-03-01T03:56:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。