Fugu-MT 論文翻訳(概要): A Comprehensive Survey of Dataset Distillation

論文の概要: A Comprehensive Survey of Dataset Distillation

arxiv url: http://arxiv.org/abs/2301.05603v3
Date: Thu, 5 Oct 2023 01:09:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-06 23:04:49.015393
Title: A Comprehensive Survey of Dataset Distillation
Title（参考訳）: データセット蒸留に関する総合調査
Authors: Shiye Lei and Dacheng Tao
Abstract要約: 限られた計算能力で無制限に成長するデータを扱うことは困難になっている。ディープラーニング技術はこの10年で前例のない発展を遂げた。本稿では,多面的なデータセット蒸留の総合的な理解を提供する。
参考スコア（独自算出の注目度）: 73.15482472726555
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep learning technology has developed unprecedentedly in the last decade and has become the primary choice in many application domains. This progress is mainly attributed to a systematic collaboration in which rapidly growing computing resources encourage advanced algorithms to deal with massive data. However, it has gradually become challenging to handle the unlimited growth of data with limited computing power. To this end, diverse approaches are proposed to improve data processing efficiency. Dataset distillation, a dataset reduction method, addresses this problem by synthesizing a small typical dataset from substantial data and has attracted much attention from the deep learning community. Existing dataset distillation methods can be taxonomized into meta-learning and data matching frameworks according to whether they explicitly mimic the performance of target data. Although dataset distillation has shown surprising performance in compressing datasets, there are still several limitations such as distilling high-resolution data or data with complex label spaces. This paper provides a holistic understanding of dataset distillation from multiple aspects, including distillation frameworks and algorithms, factorized dataset distillation, performance comparison, and applications. Finally, we discuss challenges and promising directions to further promote future studies on dataset distillation.
Abstract（参考訳）: ディープラーニング技術は過去10年間に前例のない発展を遂げ、多くのアプリケーションドメインで主要な選択肢となっている。この進歩は主に、急速に成長するコンピューティング資源が高度なアルゴリズムに大量のデータを扱うことを奨励する体系的なコラボレーションによるものである。しかし、計算能力に制限のあるデータの無制限な成長を扱うことは徐々に困難になっている。この目的のために、データ処理効率を改善するために様々なアプローチが提案されている。データセット削減法であるデータセット蒸留は、重要なデータから小さな典型的なデータセットを合成することでこの問題に対処し、ディープラーニングコミュニティから多くの注目を集めている。既存のデータセット蒸留法は、ターゲットデータのパフォーマンスを明示的に模倣するかどうかに応じて、メタラーニングとデータマッチングフレームワークに分類することができる。データセットの蒸留は、データセットの圧縮において驚くべき性能を示したが、高解像度のデータや複雑なラベル空間を持つデータの蒸留など、いくつかの制限がある。本稿では, 蒸留フレームワークとアルゴリズム, 因子化データセット蒸留, 性能比較, 応用など, 様々な側面からデータセット蒸留を総合的に理解する。最後に,今後のデータセット蒸留研究の推進に向けた課題と今後の方向性について述べる。

関連論文リスト

The Evolution of Dataset Distillation: Toward Scalable and Generalizable Solutions [9.622221492744496]
この調査は、データセット蒸留の最近の進歩を包括的にレビューする。我々は、ImageNet-1KやImageNet-21Kのような大規模データセットへのスケーリングに注力する。効率的かつ効果的な凝縮のためのSRe2Lフレームワークを含む、画期的なイノベーションを強調します。また、ビデオおよびオーディオ処理、マルチモーダル学習、医用画像、科学計算における新しい応用についても検討する。
論文参考訳（メタデータ） (2025-02-08T19:37:33Z)
Diffusion-Augmented Coreset Expansion for Scalable Dataset Distillation [18.474302012851087]
そこで本研究では,データセット蒸留のための2段階の解法を提案する。まず、最も情報性の高いパッチのみを選択して、コアセットを形成することでデータセットを圧縮する。次に、この圧縮された集合をリアルタイムで動的に拡張するために、生成基礎モデルを活用する。いくつかの大規模データセット蒸留ベンチマークでは,最先端技術と比較して10%以上の顕著な改善がみられた。
論文参考訳（メタデータ） (2024-12-05T23:40:27Z)
What is Dataset Distillation Learning? [32.99890244958794]
本研究では, 蒸留データの挙動, 代表性, ポイントワイド情報量について検討する。蒸留したデータは、トレーニング中に実際のデータに代わるものとしては役に立たない。蒸留データを解釈し、個別の蒸留データポイントが意味のある意味情報を含んでいることを示す枠組みを提供する。
論文参考訳（メタデータ） (2024-06-06T17:28:56Z)
Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文参考訳（メタデータ） (2024-01-29T03:29:39Z)
Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。蒸留における因果関係から最も寄与した試料を見出した。
論文参考訳（メタデータ） (2023-05-28T06:53:41Z)
Generalizing Dataset Distillation via Deep Generative Prior [75.9031209877651]
本稿では,データセット全体の知識をいくつかの合成画像に抽出することを提案する。このアイデアは、学習アルゴリズムにトレーニングデータとして与えられる少数の合成データポイントを合成し、結果として元のデータに基づいてトレーニングされたデータを近似するモデルを構築する。生成モデルの潜在空間における複数の中間特徴ベクトルに多数の画像を蒸留する新しい最適化アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-05-02T17:59:31Z)
Dataset Distillation: A Comprehensive Review [76.26276286545284]
データセット蒸留(DD)は、トレーニングされたモデルが元のデータセットでトレーニングされたデータセットに匹敵するパフォーマンスを得るために、合成サンプルを含むはるかに小さなデータセットを導出することを目的としている。本稿ではDDの最近の進歩とその応用について概説する。
論文参考訳（メタデータ） (2023-01-17T17:03:28Z)
Data Distillation: A Survey [32.718297871027865]
ディープラーニングは、膨大な数の大規模および多言語データセットのキュレーションにつながった。個々のタスクで人間に近いパフォーマンスを持つにもかかわらず、大規模なデータセットでパラメータハングリーモデルをトレーニングすることは、多面的な問題を引き起こす。データ蒸留アプローチは、元のデータセットの効果的なドロップイン置換として機能する、簡潔なデータ要約を合成することを目的としている。
論文参考訳（メタデータ） (2023-01-11T02:25:10Z)
DC-BENCH: Dataset Condensation Benchmark [79.18718490863908]
この研究は、データセットの凝縮に関する最初の大規模標準ベンチマークを提供する。それは、凝縮法の生成可能性と有効性を包括的に反映する一連の評価から成り立っている。ベンチマークライブラリは、将来の研究とアプリケーションを容易にするためにオープンソース化されている。
論文参考訳（メタデータ） (2022-07-20T03:54:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。