論文の概要: Not All Instances Are Equally Valuable: Towards Influence-Weighted Dataset Distillation
- arxiv url: http://arxiv.org/abs/2510.27253v1
- Date: Fri, 31 Oct 2025 07:41:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.024338
- Title: Not All Instances Are Equally Valuable: Towards Influence-Weighted Dataset Distillation
- Title(参考訳): すべてのインスタンスが同等に評価できるわけではない:影響重み付きデータセット蒸留を目指して
- Authors: Qiyan Deng, Changqian Zheng, Lianpeng Qiao, Yuping Wang, Chengliang Chai, Lei Cao,
- Abstract要約: 蒸留プロセスにおけるデータ品質を考慮に入れたインフルエンス関数を利用したフレームワークであるインフルエンス重み蒸留IWDを提案する。
IWDは、蒸留目標に対する推定された影響に基づいて各インスタンスに適応重みを割り当て、有用データを優先順位付けすると同時に、より有用または有害なものを減量する。
実験結果から,IWDの統合により蒸留データセットの品質が向上し,モデル性能が向上し,精度が最大7.8%向上することが示唆された。
- 参考スコア(独自算出の注目度): 10.625826589163252
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dataset distillation condenses large datasets into synthetic subsets, achieving performance comparable to training on the full dataset while substantially reducing storage and computation costs. Most existing dataset distillation methods assume that all real instances contribute equally to the process. In practice, real-world datasets contain both informative and redundant or even harmful instances, and directly distilling the full dataset without considering data quality can degrade model performance. In this work, we present Influence-Weighted Distillation IWD, a principled framework that leverages influence functions to explicitly account for data quality in the distillation process. IWD assigns adaptive weights to each instance based on its estimated impact on the distillation objective, prioritizing beneficial data while downweighting less useful or harmful ones. Owing to its modular design, IWD can be seamlessly integrated into diverse dataset distillation frameworks. Our empirical results suggest that integrating IWD tends to improve the quality of distilled datasets and enhance model performance, with accuracy gains of up to 7.8%.
- Abstract(参考訳): データセット蒸留は、大規模なデータセットを合成サブセットに凝縮し、フルデータセットでのトレーニングに匹敵するパフォーマンスを実現し、ストレージと計算コストを大幅に削減する。
既存のデータセット蒸留法の多くは、全ての実例がプロセスに等しく寄与していると仮定している。
実際には、実世界のデータセットには、情報的、冗長、あるいは有害なインスタンスの両方が含まれており、データ品質を考慮せずにデータセット全体を直接蒸留することは、モデルのパフォーマンスを劣化させる可能性がある。
本研究は, 蒸留プロセスにおけるデータ品質を明確に説明するために, 影響関数を利用する原理的フレームワークであるEmpfect-Weighted Distillation IWDを提案する。
IWDは、蒸留目標に対する推定された影響に基づいて各インスタンスに適応重みを割り当て、有用データを優先順位付けすると同時に、より有用または有害なものを減量する。
モジュラー設計のため、IWDは多様なデータセット蒸留フレームワークにシームレスに統合できる。
実験結果から,IWDの統合により蒸留データセットの品質が向上し,モデル性能が向上し,精度が最大7.8%向上することが示唆された。
関連論文リスト
- Rectifying Soft-Label Entangled Bias in Long-Tailed Dataset Distillation [39.47633542394261]
長期データセット蒸留におけるソフトラベルの重要性を強調した。
蒸留データセットで学習したモデルに対して,不均衡を考慮した一般化を導出する。
次に, 蒸留モデルと蒸留画像から得られた2つのソフトラベルバイアス源を同定した。
本稿では,Adaptive Soft-label Alignmentモジュールとして,絡み合ったバイアスを校正するADSAを提案する。
論文 参考訳(メタデータ) (2025-11-22T04:37:27Z) - DD-Ranking: Rethinking the Evaluation of Dataset Distillation [314.9621366437238]
本稿では,統合評価フレームワークであるDD-Rankingと,異なる手法によって達成された真の性能改善を明らかにするための新しい総合評価指標を提案する。
DD-Rankingは、蒸留データセットの実際の情報強化に再焦点をあてることで、将来の研究の進展に対してより包括的で公正な評価基準を提供する。
論文 参考訳(メタデータ) (2025-05-19T16:19:50Z) - Dataset Distillation via Committee Voting [21.018818924580877]
我々は$bf C$ommittee $bf V$oting for $bf D$ataset $bf D$istillation (CV-DD)を紹介する。
CV-DDは、複数のモデルや専門家の集合知を利用して高品質な蒸留データセットを作成する新しいアプローチである。
論文 参考訳(メタデータ) (2025-01-13T18:59:48Z) - Mitigating Bias in Dataset Distillation [62.79454960378792]
原データセット内のバイアスがデータセット蒸留の性能に及ぼす影響について検討した。
カーネル密度推定を用いたサンプル再重み付け方式に基づく,単純かつ高効率な手法を提案する。
論文 参考訳(メタデータ) (2024-06-06T18:52:28Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。
蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。
蒸留における因果関係から最も寄与した試料を見出した。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - Evaluating the effect of data augmentation and BALD heuristics on
distillation of Semantic-KITTI dataset [63.20765930558542]
Active Learningは、自律運転データセットにおけるLiDAR知覚タスクに対して、比較的未調査のままである。
本研究では,データセット蒸留やコアサブセット選択のタスクに適用したベイズ能動学習手法を評価する。
また,ベイジアンALを用いたデータセット蒸留におけるデータ拡張の適用効果についても検討した。
論文 参考訳(メタデータ) (2023-02-21T13:56:47Z) - A Comprehensive Survey of Dataset Distillation [73.15482472726555]
限られた計算能力で無制限に成長するデータを扱うことは困難になっている。
ディープラーニング技術はこの10年で前例のない発展を遂げた。
本稿では,多面的なデータセット蒸留の総合的な理解を提供する。
論文 参考訳(メタデータ) (2023-01-13T15:11:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。