論文の概要: Trust-Aware Diversion for Data-Effective Distillation
- arxiv url: http://arxiv.org/abs/2502.05027v1
- Date: Fri, 07 Feb 2025 15:57:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:56:28.210386
- Title: Trust-Aware Diversion for Data-Effective Distillation
- Title(参考訳): データ・エフェクティブ蒸留のためのトラスト・アウェア・ディバージョン
- Authors: Zhuojie Wu, Yanbin Liu, Xin Shen, Xiaofeng Cao, Xin Yu,
- Abstract要約: 本稿では,Trust-Aware Diversion (TAD)データセットの蒸留法を提案する。
提案するTADは,データ有効蒸留のための反復的デュアルループ最適化フレームワークを提案する。
実験により,本手法は既存のデータセット蒸留法の性能を大幅に向上させることができることが示された。
- 参考スコア(独自算出の注目度): 20.30961372516657
- License:
- Abstract: Dataset distillation compresses a large dataset into a small synthetic subset that retains essential information. Existing methods assume that all samples are perfectly labeled, limiting their real-world applications where incorrect labels are ubiquitous. These mislabeled samples introduce untrustworthy information into the dataset, which misleads model optimization in dataset distillation. To tackle this issue, we propose a Trust-Aware Diversion (TAD) dataset distillation method. Our proposed TAD introduces an iterative dual-loop optimization framework for data-effective distillation. Specifically, the outer loop divides data into trusted and untrusted spaces, redirecting distillation toward trusted samples to guarantee trust in the distillation process. This step minimizes the impact of mislabeled samples on dataset distillation. The inner loop maximizes the distillation objective by recalibrating untrusted samples, thus transforming them into valuable ones for distillation. This dual-loop iteratively refines and compensates for each other, gradually expanding the trusted space and shrinking the untrusted space. Experiments demonstrate that our method can significantly improve the performance of existing dataset distillation methods on three widely used benchmarks (CIFAR10, CIFAR100, and Tiny ImageNet) in three challenging mislabeled settings (symmetric, asymmetric, and real-world).
- Abstract(参考訳): データセット蒸留は、重要な情報を保持する小さな合成サブセットに巨大なデータセットを圧縮する。
既存の手法では、すべてのサンプルが完全にラベル付けされていると仮定し、不正なラベルがユビキタスな現実世界のアプリケーションを制限する。
これらの誤ラベルされたサンプルは、データセットに信頼できない情報を導入し、データセットの蒸留におけるモデルの最適化を誤解させる。
この問題に対処するために,Trust-Aware Diversion (TAD) データセット蒸留法を提案する。
提案するTADは,データ有効蒸留のための反復的デュアルループ最適化フレームワークを提案する。
具体的には、外部ループはデータを信頼できない空間に分割し、蒸留を信頼されたサンプルにリダイレクトし、蒸留プロセスの信頼性を保証する。
このステップは、誤ってラベル付けされたサンプルがデータセットの蒸留に与える影響を最小限にする。
内部ループは、信頼できないサンプルを再計算することで蒸留目標を最大化し、蒸留に有用なものへと変換する。
この二重ループは互いに洗練して補償し、信頼された空間を徐々に拡張し、信頼できない空間を縮小する。
実験により, 提案手法は, 広く使用されている3つのベンチマーク(CIFAR10, CIFAR100, Tiny ImageNet)において, 3つの非ラベル設定(対称, 非対称, 実世界)において, 既存のデータセット蒸留法の性能を著しく向上させることができることを示した。
関連論文リスト
- Label-Augmented Dataset Distillation [13.449340904911725]
ラベル増量によるデータセット蒸留を強化するため,ラベル増量データセット蒸留(LADD)を導入する。
LADDはそれぞれの合成画像をサブサンプリングし、リッチなセマンティクスをキャプチャするためにさらに高密度なラベルを生成する。
3つの高性能なデータセット蒸留アルゴリズムにより、LADDは平均14.9%の精度で著しく向上した。
論文 参考訳(メタデータ) (2024-09-24T16:54:22Z) - Prioritize Alignment in Dataset Distillation [27.71563788300818]
既存の方法はエージェントモデルを使用して、ターゲットデータセットから情報を抽出し、蒸留データセットに埋め込む。
既存の手法では,情報抽出と埋め込みの両方の段階において,不整合情報を導入している。
本稿では、以下の2つの視点から情報を整列するデータセット蒸留(PAD)における優先順位付けアライメントを提案する。
論文 参考訳(メタデータ) (2024-08-06T17:07:28Z) - Mitigating Bias in Dataset Distillation [62.79454960378792]
原データセット内のバイアスがデータセット蒸留の性能に及ぼす影響について検討した。
カーネル密度推定を用いたサンプル再重み付け方式に基づく,単純かつ高効率な手法を提案する。
論文 参考訳(メタデータ) (2024-06-06T18:52:28Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - Data Distillation Can Be Like Vodka: Distilling More Times For Better
Quality [78.6359306550245]
蒸留に1つの合成部分集合を用いるだけでは最適な一般化性能は得られない。
PDDは複数の小さな合成画像集合を合成し、それぞれ前の集合に条件付けし、これらの部分集合の累積和でモデルを訓練する。
実験の結果, PDDは既存のデータセット蒸留法の性能を最大4.3%向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-10-10T20:04:44Z) - Towards Trustworthy Dataset Distillation [26.361077372859498]
データセット蒸留(DD)は、大規模なデータセットを小さな合成データセットに蒸留することで、トレーニングコストを削減する。
我々はTrustDD(Trustworthy dataset Distillation)と呼ばれる新しいパラダイムを提案する。
InDサンプルと外れ値の両方を蒸留することにより、凝縮データセットは、InD分類とOOD検出の両方に適するモデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2023-07-18T11:43:01Z) - Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。
蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。
蒸留における因果関係から最も寄与した試料を見出した。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - On the Size and Approximation Error of Distilled Sets [57.61696480305911]
カーネル・インジェクション・ポイント(Kernel Inducing Points)などのデータセット蒸留のカーネル・リッジ回帰に基づく手法について理論的に考察する。
我々は、RFF空間におけるその解が元のデータの解と一致するように、元の入力空間に小さな一組のインスタンスが存在することを証明した。
KRR溶液は、全入力データに最適化されたKRR溶液に対して近似を与えるこの蒸留されたインスタンスセットを用いて生成することができる。
論文 参考訳(メタデータ) (2023-05-23T14:37:43Z) - Explicit and Implicit Knowledge Distillation via Unlabeled Data [5.702176304876537]
高速な計算機生成装置を代替する効率的な未ラベルサンプル選択法を提案する。
また,データ領域シフトによるラベルノイズを抑制するためのクラスドロップ機構を提案する。
実験結果から,本手法が他の最先端手法よりも高速に収束し,精度が向上できることが示唆された。
論文 参考訳(メタデータ) (2023-02-17T09:10:41Z) - Dataset Distillation Using Parameter Pruning [53.79746115426363]
提案手法は, より堅牢な蒸留データセットを合成し, 蒸留過程での難解なパラメータを抽出することにより, 蒸留性能を向上させることができる。
2つのベンチマークデータセットの実験結果から,提案手法の優位性を示した。
論文 参考訳(メタデータ) (2022-09-29T07:58:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。