論文の概要: Prioritize Alignment in Dataset Distillation
- arxiv url: http://arxiv.org/abs/2408.03360v3
- Date: Sun, 13 Oct 2024 03:24:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 12:44:50.301102
- Title: Prioritize Alignment in Dataset Distillation
- Title(参考訳): データセット蒸留における優先順位アライメント
- Authors: Zekai Li, Ziyao Guo, Wangbo Zhao, Tianle Zhang, Zhi-Qi Cheng, Samir Khaki, Kaipeng Zhang, Ahmad Sajedi, Konstantinos N Plataniotis, Kai Wang, Yang You,
- Abstract要約: 既存の方法はエージェントモデルを使用して、ターゲットデータセットから情報を抽出し、蒸留データセットに埋め込む。
既存の手法では,情報抽出と埋め込みの両方の段階において,不整合情報を導入している。
本稿では、以下の2つの視点から情報を整列するデータセット蒸留(PAD)における優先順位付けアライメントを提案する。
- 参考スコア(独自算出の注目度): 27.71563788300818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dataset Distillation aims to compress a large dataset into a significantly more compact, synthetic one without compromising the performance of the trained models. To achieve this, existing methods use the agent model to extract information from the target dataset and embed it into the distilled dataset. Consequently, the quality of extracted and embedded information determines the quality of the distilled dataset. In this work, we find that existing methods introduce misaligned information in both information extraction and embedding stages. To alleviate this, we propose Prioritize Alignment in Dataset Distillation (PAD), which aligns information from the following two perspectives. 1) We prune the target dataset according to the compressing ratio to filter the information that can be extracted by the agent model. 2) We use only deep layers of the agent model to perform the distillation to avoid excessively introducing low-level information. This simple strategy effectively filters out misaligned information and brings non-trivial improvement for mainstream matching-based distillation algorithms. Furthermore, built on trajectory matching, \textbf{PAD} achieves remarkable improvements on various benchmarks, achieving state-of-the-art performance.
- Abstract(参考訳): Dataset Distillationは、トレーニングされたモデルのパフォーマンスを損なうことなく、大規模なデータセットをはるかにコンパクトな合成データセットに圧縮することを目的としている。
これを実現するために、既存の手法ではエージェントモデルを使用してターゲットデータセットから情報を抽出し、蒸留データセットに埋め込む。
これにより、抽出された組込み情報の品質が蒸留データセットの品質を決定する。
本研究では,情報抽出段階と埋め込み段階の両方において,既存の手法が不整合情報を導入していることを示す。
これを軽減するために、以下の2つの視点から情報を整合させるPAD(Preferitize Alignment in Dataset Distillation)を提案する。
1) エージェントモデルにより抽出可能な情報をフィルタリングするために, 圧縮率に応じてターゲットデータセットを訓練する。
2) エージェントモデルの深層層のみを用いて蒸留を行い, 低レベル情報の過剰な導入を回避する。
この単純な戦略は、誤整情報を効果的にフィルタリングし、主流のマッチングベースの蒸留アルゴリズムに非自明な改善をもたらす。
さらに、トラジェクトリマッチングに基づいて構築された \textbf{PAD} は、様々なベンチマークにおいて顕著な改善を実現し、最先端のパフォーマンスを実現している。
関連論文リスト
- What is Dataset Distillation Learning? [32.99890244958794]
本研究では, 蒸留データの挙動, 代表性, ポイントワイド情報量について検討する。
蒸留したデータは、トレーニング中に実際のデータに代わるものとしては役に立たない。
蒸留データを解釈し、個別の蒸留データポイントが意味のある意味情報を含んでいることを示す枠組みを提供する。
論文 参考訳(メタデータ) (2024-06-06T17:28:56Z) - Generative Dataset Distillation: Balancing Global Structure and Local Details [49.20086587208214]
グローバルな構造と局所的な詳細のバランスを考慮に入れた新しいデータセット蒸留法を提案する。
本手法では, 条件付き生成逆数ネットワークを用いて蒸留したデータセットを生成する。
論文 参考訳(メタデータ) (2024-04-26T23:46:10Z) - Exploring the potential of prototype-based soft-labels data distillation for imbalanced data classification [0.0]
主な目的は、分類精度の観点からプロトタイプベースの軟質ラベル蒸留の性能を高めることである。
実験的研究は、この方法でデータを蒸留する能力だけでなく、増量法として機能する機会も追求している。
論文 参考訳(メタデータ) (2024-03-25T19:15:19Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - Dataset Distillation via Adversarial Prediction Matching [24.487950991247764]
本稿では,データセットの蒸留問題を効率的に解くための逆フレームワークを提案する。
提案手法は,オリジナルデータセットの10%程度の大きさの合成データセットを生成できるが,全オリジナルデータセットでトレーニングしたモデルのテスト精度の94%を平均で達成できる。
論文 参考訳(メタデータ) (2023-12-14T13:19:33Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。
蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。
蒸留における因果関係から最も寄与した試料を見出した。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - Generalizing Dataset Distillation via Deep Generative Prior [75.9031209877651]
本稿では,データセット全体の知識をいくつかの合成画像に抽出することを提案する。
このアイデアは、学習アルゴリズムにトレーニングデータとして与えられる少数の合成データポイントを合成し、結果として元のデータに基づいてトレーニングされたデータを近似するモデルを構築する。
生成モデルの潜在空間における複数の中間特徴ベクトルに多数の画像を蒸留する新しい最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-02T17:59:31Z) - Minimizing the Accumulated Trajectory Error to Improve Dataset
Distillation [151.70234052015948]
本稿では,フラットな軌道を求める最適化アルゴリズムを提案する。
合成データに基づいてトレーニングされた重みは、平坦な軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。
本手法はFTD (Flat Trajectory Distillation) と呼ばれ, 勾配整合法の性能を最大4.7%向上させる。
論文 参考訳(メタデータ) (2022-11-20T15:49:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。