論文の概要: Rectifying Soft-Label Entangled Bias in Long-Tailed Dataset Distillation
- arxiv url: http://arxiv.org/abs/2511.17914v1
- Date: Sat, 22 Nov 2025 04:37:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.512416
- Title: Rectifying Soft-Label Entangled Bias in Long-Tailed Dataset Distillation
- Title(参考訳): 長尺データセット蒸留におけるソフトラベル絡み合いバイアスの定量化
- Authors: Chenyang Jiang, Hang Zhao, Xinyu Zhang, Zhengcen Li, Qiben Shan, Shaocong Wu, Jingyong Su,
- Abstract要約: 長期データセット蒸留におけるソフトラベルの重要性を強調した。
蒸留データセットで学習したモデルに対して,不均衡を考慮した一般化を導出する。
次に, 蒸留モデルと蒸留画像から得られた2つのソフトラベルバイアス源を同定した。
本稿では,Adaptive Soft-label Alignmentモジュールとして,絡み合ったバイアスを校正するADSAを提案する。
- 参考スコア(独自算出の注目度): 39.47633542394261
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dataset distillation compresses large-scale datasets into compact, highly informative synthetic data, significantly reducing storage and training costs. However, existing research primarily focuses on balanced datasets and struggles to perform under real-world long-tailed distributions. In this work, we emphasize the critical role of soft labels in long-tailed dataset distillation and uncover the underlying mechanisms contributing to performance degradation. Specifically, we derive an imbalance-aware generalization bound for model trained on distilled dataset. We then identify two primary sources of soft-label bias, which originate from the distillation model and the distilled images, through systematic perturbation of the data imbalance levels. To address this, we propose ADSA, an Adaptive Soft-label Alignment module that calibrates the entangled biases. This lightweight module integrates seamlessly into existing distillation pipelines and consistently improves performance. On ImageNet-1k-LT with EDC and IPC=50, ADSA improves tail-class accuracy by up to 11.8% and raises overall accuracy to 41.4%. Extensive experiments demonstrate that ADSA provides a robust and generalizable solution under limited label budgets and across a range of distillation techniques. Code is available at: https://github.com/j-cyoung/ADSA_DD.git.
- Abstract(参考訳): データセット蒸留は、大規模なデータセットをコンパクトで情報性の高い合成データに圧縮し、ストレージとトレーニングコストを大幅に削減する。
しかし、既存の研究は主にバランスのとれたデータセットと、現実世界の長い尾の分布下での作業に重点を置いている。
本研究は, 長期データセット蒸留におけるソフトラベルの重要性を強調し, 性能劣化の原因となるメカニズムを明らかにする。
具体的には、蒸留データセットで訓練されたモデルに対して、不均衡を考慮した一般化を導出する。
次に, 蒸留モデルと蒸留画像から得られた2つのソフトラベルバイアスの主源を, データ不均衡レベルの系統的摂動により同定する。
そこで本稿では,Adaptive Soft-label Alignmentモジュールとして,絡み合ったバイアスを校正するADSAを提案する。
この軽量モジュールは既存の蒸留パイプラインにシームレスに統合され、一貫して性能が向上する。
EDCとIPC=50のImageNet-1k-LTでは、ADSAはテールクラスの精度を最大11.8%向上し、全体的な精度は41.4%向上した。
広範囲にわたる実験により、ADSAは限られたラベル予算と様々な蒸留技術の下で、堅牢で一般化可能なソリューションを提供することが示された。
コードは、https://github.com/j-cyoung/ADSA_DD.git.comで入手できる。
関連論文リスト
- DD-Ranking: Rethinking the Evaluation of Dataset Distillation [314.9621366437238]
本稿では,統合評価フレームワークであるDD-Rankingと,異なる手法によって達成された真の性能改善を明らかにするための新しい総合評価指標を提案する。
DD-Rankingは、蒸留データセットの実際の情報強化に再焦点をあてることで、将来の研究の進展に対してより包括的で公正な評価基準を提供する。
論文 参考訳(メタデータ) (2025-05-19T16:19:50Z) - Dataset Distillation via Committee Voting [21.018818924580877]
我々は$bf C$ommittee $bf V$oting for $bf D$ataset $bf D$istillation (CV-DD)を紹介する。
CV-DDは、複数のモデルや専門家の集合知を利用して高品質な蒸留データセットを作成する新しいアプローチである。
論文 参考訳(メタデータ) (2025-01-13T18:59:48Z) - Distilling Long-tailed Datasets [13.330572317331198]
本稿では,偏りのある専門家の軌道と直接一致することを避けるために,分布に依存しないマッチングを提案する。
また, 蒸留指導をエキスパートデカップリングで改善し, テールクラス性能を向上する。
この研究は長い尾のデータセット蒸留の分野を開拓し、長い尾のデータセットを蒸留する最初の効果的な試みとなった。
論文 参考訳(メタデータ) (2024-08-24T15:36:36Z) - Mitigating Bias in Dataset Distillation [62.79454960378792]
原データセット内のバイアスがデータセット蒸留の性能に及ぼす影響について検討した。
カーネル密度推定を用いたサンプル再重み付け方式に基づく,単純かつ高効率な手法を提案する。
論文 参考訳(メタデータ) (2024-06-06T18:52:28Z) - Exploring the potential of prototype-based soft-labels data distillation for imbalanced data classification [0.0]
主な目的は、分類精度の観点からプロトタイプベースの軟質ラベル蒸留の性能を高めることである。
実験的研究は、この方法でデータを蒸留する能力だけでなく、増量法として機能する機会も追求している。
論文 参考訳(メタデータ) (2024-03-25T19:15:19Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。
蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。
蒸留における因果関係から最も寄与した試料を見出した。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。