論文の概要: Importance-Aware Adaptive Dataset Distillation
- arxiv url: http://arxiv.org/abs/2401.15863v1
- Date: Mon, 29 Jan 2024 03:29:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 16:17:22.986772
- Title: Importance-Aware Adaptive Dataset Distillation
- Title(参考訳): 重要度対応型データセット蒸留
- Authors: Guang Li, Ren Togo, Takahiro Ogawa, Miki Haseyama
- Abstract要約: ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
- 参考スコア(独自算出の注目度): 53.79746115426363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Herein, we propose a novel dataset distillation method for constructing small
informative datasets that preserve the information of the large original
datasets. The development of deep learning models is enabled by the
availability of large-scale datasets. Despite unprecedented success,
large-scale datasets considerably increase the storage and transmission costs,
resulting in a cumbersome model training process. Moreover, using raw data for
training raises privacy and copyright concerns. To address these issues, a new
task named dataset distillation has been introduced, aiming to synthesize a
compact dataset that retains the essential information from the large original
dataset. State-of-the-art (SOTA) dataset distillation methods have been
proposed by matching gradients or network parameters obtained during training
on real and synthetic datasets. The contribution of different network
parameters to the distillation process varies, and uniformly treating them
leads to degraded distillation performance. Based on this observation, we
propose an importance-aware adaptive dataset distillation (IADD) method that
can improve distillation performance by automatically assigning importance
weights to different network parameters during distillation, thereby
synthesizing more robust distilled datasets. IADD demonstrates superior
performance over other SOTA dataset distillation methods based on parameter
matching on multiple benchmark datasets and outperforms them in terms of
cross-architecture generalization. In addition, the analysis of self-adaptive
weights demonstrates the effectiveness of IADD. Furthermore, the effectiveness
of IADD is validated in a real-world medical application such as COVID-19
detection.
- Abstract(参考訳): 本稿では,大規模なオリジナルデータセットの情報を保存する小型情報データセットを構築するための新しいデータセット蒸留法を提案する。
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
前例のない成功にもかかわらず、大規模なデータセットはストレージと送信コストを大幅に増加させ、面倒なモデルトレーニングプロセスをもたらす。
さらに、トレーニングに生のデータを使用すると、プライバシーと著作権の懸念が高まる。
これらの問題に対処するために、大規模なオリジナルデータセットから必須情報を保持するコンパクトデータセットを合成することを目的として、データセット蒸留という新しいタスクが導入された。
実データおよび合成データセットのトレーニング中に得られた勾配やネットワークパラメータを一致させることにより,最先端(sota)データセット蒸留法が提案されている。
異なるネットワークパラメータの蒸留プロセスへの寄与は様々であり, 均一に処理することで蒸留性能が低下する。
そこで本研究では,より堅牢な蒸留データセットを合成することにより,異なるネットワークパラメータに重要度重みを自動的に割り当てることで,蒸留性能を向上できるiadd法を提案する。
IADDは、複数のベンチマークデータセットのパラメータマッチングに基づく他のSOTAデータセット蒸留法よりも優れた性能を示し、クロスアーキテクチャの一般化の観点からそれらを上回る。
さらに, 自己適応重みの解析により, IADDの有効性が示された。
さらに、IADDの有効性は、COVID-19検出などの現実世界の医療応用で検証されている。
関連論文リスト
- Exploring the potential of prototype-based soft-labels data distillation for imbalanced data classification [0.0]
主な目的は、分類精度の観点からプロトタイプベースの軟質ラベル蒸留の性能を高めることである。
実験的研究は、この方法でデータを蒸留する能力だけでなく、増量法として機能する機会も追求している。
論文 参考訳(メタデータ) (2024-03-25T19:15:19Z) - AST: Effective Dataset Distillation through Alignment with Smooth and
High-Quality Expert Trajectories [18.266786462036553]
我々は,Smoothと高品質なエキスパートトラジェクトリによるアライメントのための効果的なDDフレームワークASTを提案する。
さまざまなスケール、サイズ、解像度のデータセットに対して、広範な実験を行います。
論文 参考訳(メタデータ) (2023-10-16T16:13:53Z) - Data Distillation Can Be Like Vodka: Distilling More Times For Better
Quality [78.6359306550245]
蒸留に1つの合成部分集合を用いるだけでは最適な一般化性能は得られない。
PDDは複数の小さな合成画像集合を合成し、それぞれ前の集合に条件付けし、これらの部分集合の累積和でモデルを訓練する。
実験の結果, PDDは既存のデータセット蒸留法の性能を最大4.3%向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-10-10T20:04:44Z) - Towards Efficient Deep Hashing Retrieval: Condensing Your Data via
Feature-Embedding Matching [7.908244841289913]
最先端の深層ハッシュ検索モデルのトレーニングに要する費用は増加している。
最先端のデータセット蒸留法は、すべての深層ハッシュ検索法に拡張できない。
合成集合と実集合との特徴埋め込みをマッチングすることにより,これらの制約に対処する効率的な凝縮フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T13:23:55Z) - Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。
蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。
蒸留における因果関係から最も寄与した試料を見出した。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - A Comprehensive Survey of Dataset Distillation [73.15482472726555]
限られた計算能力で無制限に成長するデータを扱うことは困難になっている。
ディープラーニング技術はこの10年で前例のない発展を遂げた。
本稿では,多面的なデータセット蒸留の総合的な理解を提供する。
論文 参考訳(メタデータ) (2023-01-13T15:11:38Z) - Dataset Distillation by Matching Training Trajectories [75.9031209877651]
そこで本研究では,実データと同じような状態にネットワークを誘導するために,蒸留データを最適化する新しい定式化を提案する。
ネットワークが与えられたら、蒸留データを何回か繰り返して訓練し、合成訓練されたパラメータと実データで訓練されたパラメータとの距離に関して蒸留データを最適化する。
本手法は既存の手法よりも優れており,高解像度の視覚データを蒸留することができる。
論文 参考訳(メタデータ) (2022-03-22T17:58:59Z) - LiDAR dataset distillation within bayesian active learning framework:
Understanding the effect of data augmentation [63.20765930558542]
アクティブラーニング(AL)は、アノテーションコストとデータセットサイズの削減に対処するため、最近再び注目されている。
本稿では,大規模なセマンティックKITTIデータセットの1/4分の1でALベースのデータセット蒸留を原理的に評価する。
我々は、選択したデータセット構成からのサンプルの60%のみを使用して、データ拡張が完全なデータセット精度を達成することを観察した。
論文 参考訳(メタデータ) (2022-02-06T00:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。