論文の概要: FADRM: Fast and Accurate Data Residual Matching for Dataset Distillation
- arxiv url: http://arxiv.org/abs/2506.24125v1
- Date: Mon, 30 Jun 2025 17:59:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.194597
- Title: FADRM: Fast and Accurate Data Residual Matching for Dataset Distillation
- Title(参考訳): FADRM:データセット蒸留のための高速かつ正確なデータ残差マッチング
- Authors: Jiacheng Cui, Xinyue Bi, Yaxin Luo, Xiaohan Zhao, Jiacheng Liu, Zhiqiang Shen,
- Abstract要約: 残余接続は、モデルアーキテクチャレベルで広く研究され、広く応用されている。
データレシダルマッチングの概念を初めて導入し、データレベルのスキップ接続を活用してデータ生成を容易にし、データ情報の消滅を緩和する。
- 参考スコア(独自算出の注目度): 21.910537847630067
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Residual connection has been extensively studied and widely applied at the model architecture level. However, its potential in the more challenging data-centric approaches remains unexplored. In this work, we introduce the concept of Data Residual Matching for the first time, leveraging data-level skip connections to facilitate data generation and mitigate data information vanishing. This approach maintains a balance between newly acquired knowledge through pixel space optimization and existing core local information identification within raw data modalities, specifically for the dataset distillation task. Furthermore, by incorporating optimization-level refinements, our method significantly improves computational efficiency, achieving superior performance while reducing training time and peak GPU memory usage by 50%. Consequently, the proposed method Fast and Accurate Data Residual Matching for Dataset Distillation (FADRM) establishes a new state-of-the-art, demonstrating substantial improvements over existing methods across multiple dataset benchmarks in both efficiency and effectiveness. For instance, with ResNet-18 as the student model and a 0.8% compression ratio on ImageNet-1K, the method achieves 47.7% test accuracy in single-model dataset distillation and 50.0% in multi-model dataset distillation, surpassing RDED by +5.7% and outperforming state-of-the-art multi-model approaches, EDC and CV-DD, by +1.4% and +4.0%. Code is available at: https://github.com/Jiacheng8/FADRM.
- Abstract(参考訳): 残余接続は、モデルアーキテクチャレベルで広く研究され、広く応用されている。
しかし、より挑戦的なデータ中心のアプローチにおけるそのポテンシャルは、まだ解明されていない。
本研究では,データレシダルマッチングの概念を初めて導入し,データレベルのスキップ接続を活用してデータ生成を容易にし,データ情報の消滅を緩和する。
このアプローチは、ピクセル空間最適化による新たな知識と、特にデータセット蒸留タスクにおいて、生データモダリティ内の既存のコアローカル情報識別とのバランスを維持している。
さらに、最適化レベルの改善を取り入れることで、計算効率を大幅に改善し、トレーニング時間とGPUメモリ使用量の50%削減を図り、優れた性能を実現した。
その結果、FADRM(Fast and Accurate Data Residual Matching for Dataset Distillation)は、新しい最先端技術を確立し、複数のデータセットベンチマークにおいて、効率と有効性の両方において、既存のメソッドよりも大幅に改善されている。
例えば、ResNet-18を学生モデルとし、ImageNet-1Kの0.8%圧縮比で、シングルモデルデータセットの蒸留では47.7%、マルチモデルデータセットの蒸留では50.0%、RDEDを+5.7%、最先端のマルチモデルアプローチであるEDCとCV-DDを+1.4%、+4.0%で上回った。
コードは、https://github.com/Jiacheng8/FADRM.comで入手できる。
関連論文リスト
- DD-Ranking: Rethinking the Evaluation of Dataset Distillation [223.28392857127733]
本稿では,統合評価フレームワークであるDD-Rankingと,異なる手法によって達成された真の性能改善を明らかにするための新しい総合評価指標を提案する。
DD-Rankingは、蒸留データセットの実際の情報強化に再焦点をあてることで、将来の研究の進展に対してより包括的で公正な評価基準を提供する。
論文 参考訳(メタデータ) (2025-05-19T16:19:50Z) - Dataset Distillation via Committee Voting [21.018818924580877]
我々は$bf C$ommittee $bf V$oting for $bf D$ataset $bf D$istillation (CV-DD)を紹介する。
CV-DDは、複数のモデルや専門家の集合知を利用して高品質な蒸留データセットを作成する新しいアプローチである。
論文 参考訳(メタデータ) (2025-01-13T18:59:48Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - Dataset Distillation via Adversarial Prediction Matching [24.487950991247764]
本稿では,データセットの蒸留問題を効率的に解くための逆フレームワークを提案する。
提案手法は,オリジナルデータセットの10%程度の大きさの合成データセットを生成できるが,全オリジナルデータセットでトレーニングしたモデルのテスト精度の94%を平均で達成できる。
論文 参考訳(メタデータ) (2023-12-14T13:19:33Z) - On the Diversity and Realism of Distilled Dataset: An Efficient Dataset Distillation Paradigm [8.220508517570577]
蒸留データの多様性とリアリズムを両立させるRDEDを提案する。
完全なImageNet-1Kを7分以内で、クラス毎に10の画像からなる小さなデータセットに抽出し、注目すべき42%のトップ1精度を実現する。
論文 参考訳(メタデータ) (2023-12-06T14:40:05Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。
蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。
蒸留における因果関係から最も寄与した試料を見出した。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - Minimizing the Accumulated Trajectory Error to Improve Dataset
Distillation [151.70234052015948]
本稿では,フラットな軌道を求める最適化アルゴリズムを提案する。
合成データに基づいてトレーニングされた重みは、平坦な軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。
本手法はFTD (Flat Trajectory Distillation) と呼ばれ, 勾配整合法の性能を最大4.7%向上させる。
論文 参考訳(メタデータ) (2022-11-20T15:49:11Z) - Dataset Distillation using Neural Feature Regression [32.53291298089172]
ニューラル・フィーチャー・レグレッション・アンド・プール(FRePo)を用いたデータセット蒸留アルゴリズムを開発した。
FRePoは、メモリ要件を桁違いに少なくし、以前の方法よりも2桁高速なトレーニングで最先端のパフォーマンスを実現している。
我々は,高品質な蒸留データにより,連続学習や会員推測防衛など,下流の様々な応用を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-06-01T19:02:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。