論文の概要: Not All Instances Are Equally Valuable: Towards Influence-Weighted Dataset Distillation
- arxiv url: http://arxiv.org/abs/2510.27253v1
- Date: Fri, 31 Oct 2025 07:41:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.024338
- Title: Not All Instances Are Equally Valuable: Towards Influence-Weighted Dataset Distillation
- Title(参考訳): すべてのインスタンスが同等に評価できるわけではない:影響重み付きデータセット蒸留を目指して
- Authors: Qiyan Deng, Changqian Zheng, Lianpeng Qiao, Yuping Wang, Chengliang Chai, Lei Cao,
- Abstract要約: 蒸留プロセスにおけるデータ品質を考慮に入れたインフルエンス関数を利用したフレームワークであるインフルエンス重み蒸留IWDを提案する。
IWDは、蒸留目標に対する推定された影響に基づいて各インスタンスに適応重みを割り当て、有用データを優先順位付けすると同時に、より有用または有害なものを減量する。
実験結果から,IWDの統合により蒸留データセットの品質が向上し,モデル性能が向上し,精度が最大7.8%向上することが示唆された。
- 参考スコア(独自算出の注目度): 10.625826589163252
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dataset distillation condenses large datasets into synthetic subsets, achieving performance comparable to training on the full dataset while substantially reducing storage and computation costs. Most existing dataset distillation methods assume that all real instances contribute equally to the process. In practice, real-world datasets contain both informative and redundant or even harmful instances, and directly distilling the full dataset without considering data quality can degrade model performance. In this work, we present Influence-Weighted Distillation IWD, a principled framework that leverages influence functions to explicitly account for data quality in the distillation process. IWD assigns adaptive weights to each instance based on its estimated impact on the distillation objective, prioritizing beneficial data while downweighting less useful or harmful ones. Owing to its modular design, IWD can be seamlessly integrated into diverse dataset distillation frameworks. Our empirical results suggest that integrating IWD tends to improve the quality of distilled datasets and enhance model performance, with accuracy gains of up to 7.8%.
- Abstract(参考訳): データセット蒸留は、大規模なデータセットを合成サブセットに凝縮し、フルデータセットでのトレーニングに匹敵するパフォーマンスを実現し、ストレージと計算コストを大幅に削減する。
既存のデータセット蒸留法の多くは、全ての実例がプロセスに等しく寄与していると仮定している。
実際には、実世界のデータセットには、情報的、冗長、あるいは有害なインスタンスの両方が含まれており、データ品質を考慮せずにデータセット全体を直接蒸留することは、モデルのパフォーマンスを劣化させる可能性がある。
本研究は, 蒸留プロセスにおけるデータ品質を明確に説明するために, 影響関数を利用する原理的フレームワークであるEmpfect-Weighted Distillation IWDを提案する。
IWDは、蒸留目標に対する推定された影響に基づいて各インスタンスに適応重みを割り当て、有用データを優先順位付けすると同時に、より有用または有害なものを減量する。
モジュラー設計のため、IWDは多様なデータセット蒸留フレームワークにシームレスに統合できる。
実験結果から,IWDの統合により蒸留データセットの品質が向上し,モデル性能が向上し,精度が最大7.8%向上することが示唆された。
関連論文リスト
- DD-Ranking: Rethinking the Evaluation of Dataset Distillation [314.9621366437238]
本稿では,統合評価フレームワークであるDD-Rankingと,異なる手法によって達成された真の性能改善を明らかにするための新しい総合評価指標を提案する。
DD-Rankingは、蒸留データセットの実際の情報強化に再焦点をあてることで、将来の研究の進展に対してより包括的で公正な評価基準を提供する。
論文 参考訳(メタデータ) (2025-05-19T16:19:50Z) - Dataset Distillation via Committee Voting [21.018818924580877]
我々は$bf C$ommittee $bf V$oting for $bf D$ataset $bf D$istillation (CV-DD)を紹介する。
CV-DDは、複数のモデルや専門家の集合知を利用して高品質な蒸留データセットを作成する新しいアプローチである。
論文 参考訳(メタデータ) (2025-01-13T18:59:48Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。
蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。
蒸留における因果関係から最も寄与した試料を見出した。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。