Fugu-MT 論文翻訳(概要): Distill Gold from Massive Ores: Efficient Dataset Distillation via Critical Samples Selection

論文の概要: Distill Gold from Massive Ores: Efficient Dataset Distillation via Critical Samples Selection

arxiv url: http://arxiv.org/abs/2305.18381v1
Date: Sun, 28 May 2023 06:53:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-31 21:50:56.135637
Title: Distill Gold from Massive Ores: Efficient Dataset Distillation via Critical Samples Selection
Title（参考訳）: 大量鉱石から溶出する金: 臨界試料選択による効率的なデータセット蒸留
Authors: Yue Xu, Yong-Lu Li, Kaitong Cui, Ziyu Wang, Cewu Lu, Yu-Wing Tai, Chi-Keung Tang
Abstract要約: 我々は,情報理論を参考に,データセットの蒸留問題をモデル化する。我々は最も価値の高いサンプルを利用する方法のファミリーを提案する。新しい戦略は、トレーニングコストを大幅に削減し、様々な既存の蒸留アルゴリズムを、より大きく、より多様化したデータセットに拡張する。
参考スコア（独自算出の注目度）: 87.06644225184122
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Data-efficient learning has drawn significant attention, especially given the current trend of large multi-modal models, where dataset distillation can be an effective solution. However, the dataset distillation process itself is still very inefficient. In this work, we model the distillation problem with reference to information theory. Observing that severe data redundancy exists in dataset distillation, we argue to put more emphasis on the utility of the training samples. We propose a family of methods to exploit the most valuable samples, which is validated by our comprehensive analysis of the optimal data selection. The new strategy significantly reduces the training cost and extends a variety of existing distillation algorithms to larger and more diversified datasets, e.g. in some cases only 0.04% training data is sufficient for comparable distillation performance. Moreover, our strategy consistently enhances the performance, which may open up new analyses on the dynamics of distillation and networks. Our method is able to extend the distillation algorithms to much larger-scale datasets and more heterogeneous datasets, e.g. ImageNet-1K and Kinetics-400. Our code will be made publicly available.
Abstract（参考訳）: データ効率の学習は、特にデータセットの蒸留が有効な解となる大規模なマルチモーダルモデルの現在の傾向を考えると、大きな注目を集めている。しかし、データセットの蒸留プロセス自体は依然として非常に非効率である。本研究では,情報理論を参考に蒸留問題をモデル化する。データセットの蒸留に重大なデータ冗長性が存在することを観察し、トレーニングサンプルの有用性をより強調する。最適なデータ選択の包括的分析によって検証される,最も価値のあるサンプルを活用するための一連の手法を提案する。新しい戦略はトレーニングコストを大幅に削減し、既存の蒸留アルゴリズムをより大きく、より多様化したデータセットに拡張する。さらに, この戦略は, 蒸留とネットワークのダイナミクスに関する新たな分析を開拓し, 性能を継続的に向上させる。本手法は,imagenet-1k や kinetics-400 など,より大規模なデータセットや不均一なデータセットに蒸留アルゴリズムを拡張できる。私たちのコードは公開されます。

関連論文リスト

DD-Ranking: Rethinking the Evaluation of Dataset Distillation [223.28392857127733]
本稿では,統合評価フレームワークであるDD-Rankingと,異なる手法によって達成された真の性能改善を明らかにするための新しい総合評価指標を提案する。 DD-Rankingは、蒸留データセットの実際の情報強化に再焦点をあてることで、将来の研究の進展に対してより包括的で公正な評価基準を提供する。
論文参考訳（メタデータ） (2025-05-19T16:19:50Z)
Robust Dataset Distillation by Matching Adversarial Trajectories [21.52323435014135]
我々は, 蒸留プロセス中に, 対向的堅牢性を合成データセットに組み込む新しいパラダイムである「ロバストデータセット蒸留」の課題を紹介する。本稿では, トラジェクトリに基づくデータセット蒸留に, 逆行訓練を統合する手法であるMatching Adversarial Trajectories (MAT)を提案する。 MATは、トラジェクトリ生成中に反対のサンプルを取り込み、堅牢なトレーニング軌跡を得る。
論文参考訳（メタデータ） (2025-03-15T10:02:38Z)
Dataset Distillation via Committee Voting [21.018818924580877]
我々は$bf C$ommittee $bf V$oting for $bf D$ataset $bf D$istillation (CV-DD)を紹介する。 CV-DDは、複数のモデルや専門家の集合知を利用して高品質な蒸留データセットを作成する新しいアプローチである。
論文参考訳（メタデータ） (2025-01-13T18:59:48Z)
Label-Augmented Dataset Distillation [13.449340904911725]
ラベル増量によるデータセット蒸留を強化するため,ラベル増量データセット蒸留(LADD)を導入する。 LADDはそれぞれの合成画像をサブサンプリングし、リッチなセマンティクスをキャプチャするためにさらに高密度なラベルを生成する。 3つの高性能なデータセット蒸留アルゴリズムにより、LADDは平均14.9%の精度で著しく向上した。
論文参考訳（メタデータ） (2024-09-24T16:54:22Z)
Mitigating Bias in Dataset Distillation [62.79454960378792]
原データセット内のバイアスがデータセット蒸留の性能に及ぼす影響について検討した。カーネル密度推定を用いたサンプル再重み付け方式に基づく,単純かつ高効率な手法を提案する。
論文参考訳（メタデータ） (2024-06-06T18:52:28Z)
Exploring the potential of prototype-based soft-labels data distillation for imbalanced data classification [0.0]
主な目的は、分類精度の観点からプロトタイプベースの軟質ラベル蒸留の性能を高めることである。実験的研究は、この方法でデータを蒸留する能力だけでなく、増量法として機能する機会も追求している。
論文参考訳（メタデータ） (2024-03-25T19:15:19Z)
Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文参考訳（メタデータ） (2024-01-29T03:29:39Z)
Dataset Distillation via Adversarial Prediction Matching [24.487950991247764]
本稿では,データセットの蒸留問題を効率的に解くための逆フレームワークを提案する。提案手法は,オリジナルデータセットの10%程度の大きさの合成データセットを生成できるが,全オリジナルデータセットでトレーニングしたモデルのテスト精度の94%を平均で達成できる。
論文参考訳（メタデータ） (2023-12-14T13:19:33Z)
Data Distillation Can Be Like Vodka: Distilling More Times For Better Quality [78.6359306550245]
蒸留に1つの合成部分集合を用いるだけでは最適な一般化性能は得られない。 PDDは複数の小さな合成画像集合を合成し、それぞれ前の集合に条件付けし、これらの部分集合の累積和でモデルを訓練する。実験の結果, PDDは既存のデータセット蒸留法の性能を最大4.3%向上させることができることがわかった。
論文参考訳（メタデータ） (2023-10-10T20:04:44Z)
Dataset Distillation by Matching Training Trajectories [75.9031209877651]
そこで本研究では,実データと同じような状態にネットワークを誘導するために,蒸留データを最適化する新しい定式化を提案する。ネットワークが与えられたら、蒸留データを何回か繰り返して訓練し、合成訓練されたパラメータと実データで訓練されたパラメータとの距離に関して蒸留データを最適化する。本手法は既存の手法よりも優れており,高解像度の視覚データを蒸留することができる。
論文参考訳（メタデータ） (2022-03-22T17:58:59Z)
New Properties of the Data Distillation Method When Working With Tabular Data [77.34726150561087]
データ蒸留は、必要な情報のみを保持しながら、トレーニングデータの量を減らす問題である。蒸留した試料でトレーニングしたモデルは、元のデータセットでトレーニングしたモデルより優れていることを示す。
論文参考訳（メタデータ） (2020-10-19T20:27:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。