論文の概要: A Survey on Dataset Distillation: Approaches, Applications and Future
Directions
- arxiv url: http://arxiv.org/abs/2305.01975v1
- Date: Wed, 3 May 2023 08:41:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-04 15:34:09.126999
- Title: A Survey on Dataset Distillation: Approaches, Applications and Future
Directions
- Title(参考訳): データセット蒸留に関する調査 : アプローチ, 応用, 今後の展開
- Authors: Jiahui Geng, Zongxiong Chen, Yuandou Wang, Herbert Woisetschlaeger,
Sonja Schimmler, Ruben Mayer, Zhiming Zhao and Chunming Rong
- Abstract要約: 高い情報密度でデータセットを合成することにより、データセット蒸留は潜在的な応用範囲を提供する。
本稿では,データセット蒸留の分類法を提案し,既存のアプローチを特徴付けるとともに,データモダリティとその関連アプリケーションについて体系的にレビューする。
- 参考スコア(独自算出の注目度): 4.013573863634063
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dataset distillation is attracting more attention in machine learning as
training sets continue to grow and the cost of training state-of-the-art models
becomes increasingly high. By synthesizing datasets with high information
density, dataset distillation offers a range of potential applications,
including support for continual learning, neural architecture search, and
privacy protection. Despite recent advances, we lack a holistic understanding
of the approaches and applications. Our survey aims to bridge this gap by first
proposing a taxonomy of dataset distillation, characterizing existing
approaches, and then systematically reviewing the data modalities, and related
applications. In addition, we summarize the challenges and discuss future
directions for this field of research.
- Abstract(参考訳): トレーニングセットが増加し続け、最先端モデルのトレーニングコストが高まる中、データセット蒸留は機械学習で注目を集めている。
高い情報密度でデータセットを合成することで、データセット蒸留は、継続的な学習、ニューラルネットワーク検索、プライバシ保護など、さまざまな潜在的なアプリケーションを提供する。
最近の進歩にもかかわらず、アプローチとアプリケーションに対する総合的な理解が欠けている。
このギャップを埋めるために、まずデータセット蒸留の分類を提案し、既存のアプローチを特徴付けるとともに、データモダリティとその関連アプリケーションについて体系的にレビューする。
また,本研究の課題を要約し,今後の方向性について考察する。
関連論文リスト
- A Survey on Data Synthesis and Augmentation for Large Language Models [35.59526251210408]
本稿では,大規模言語モデルのライフサイクルを通じてデータ生成手法をレビューし,要約する。
これらの手法が直面する現在の制約について考察し,今後の開発・研究の道筋について考察する。
論文 参考訳(メタデータ) (2024-10-16T16:12:39Z) - Behaviour Distillation [10.437472004180883]
我々は、専門家ポリシーのトレーニングに必要な情報を合成データセットに発見・凝縮することを目的とした行動蒸留を定式化する。
次に,Halucinating datasets with Evolution Strategies (HaDES)を紹介した。
これらのデータセットは分散から多種多様なアーキテクチャでトレーニングポリシーへと一般化されていることを示す。
また、下流タスク、すなわちゼロショット方式でマルチタスクエージェントを訓練するアプリケーションの実演を行う。
論文 参考訳(メタデータ) (2024-06-21T10:45:43Z) - Deep Learning for Trajectory Data Management and Mining: A Survey and Beyond [58.63558696061679]
軌道計算は、位置サービス、都市交通、公共安全など、様々な実用用途において重要である。
トラジェクトリ・コンピューティングのためのディープラーニング(DL4Traj)の開発と最近の進歩について概観する。
特に、軌道計算を増強する可能性を持つ大規模言語モデル(LLM)の最近の進歩をカプセル化する。
論文 参考訳(メタデータ) (2024-03-21T05:57:27Z) - A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - Dataset Distillation: A Comprehensive Review [76.26276286545284]
データセット蒸留(DD)は、トレーニングされたモデルが元のデータセットでトレーニングされたデータセットに匹敵するパフォーマンスを得るために、合成サンプルを含むはるかに小さなデータセットを導出することを目的としている。
本稿ではDDの最近の進歩とその応用について概説する。
論文 参考訳(メタデータ) (2023-01-17T17:03:28Z) - A Comprehensive Survey of Dataset Distillation [73.15482472726555]
限られた計算能力で無制限に成長するデータを扱うことは困難になっている。
ディープラーニング技術はこの10年で前例のない発展を遂げた。
本稿では,多面的なデータセット蒸留の総合的な理解を提供する。
論文 参考訳(メタデータ) (2023-01-13T15:11:38Z) - Data Distillation: A Survey [32.718297871027865]
ディープラーニングは、膨大な数の大規模および多言語データセットのキュレーションにつながった。
個々のタスクで人間に近いパフォーマンスを持つにもかかわらず、大規模なデータセットでパラメータハングリーモデルをトレーニングすることは、多面的な問題を引き起こす。
データ蒸留アプローチは、元のデータセットの効果的なドロップイン置換として機能する、簡潔なデータ要約を合成することを目的としている。
論文 参考訳(メタデータ) (2023-01-11T02:25:10Z) - Research Trends and Applications of Data Augmentation Algorithms [77.34726150561087]
我々は,データ拡張アルゴリズムの適用分野,使用するアルゴリズムの種類,重要な研究動向,時間経過に伴う研究の進展,およびデータ拡張文学における研究ギャップを同定する。
我々は、読者がデータ拡張の可能性を理解し、将来の研究方向を特定し、データ拡張研究の中で質問を開くことを期待する。
論文 参考訳(メタデータ) (2022-07-18T11:38:32Z) - Deep Learning Schema-based Event Extraction: Literature Review and
Current Trends [60.29289298349322]
ディープラーニングに基づくイベント抽出技術が研究ホットスポットとなっている。
本稿では,ディープラーニングモデルに焦点をあて,最先端のアプローチを見直し,そのギャップを埋める。
論文 参考訳(メタデータ) (2021-07-05T16:32:45Z) - Data and its (dis)contents: A survey of dataset development and use in
machine learning research [11.042648980854487]
機械学習におけるデータの収集と利用方法に関する多くの懸念を調査します。
この分野の実践的かつ倫理的な問題のいくつかに対処するには、データのより慎重で徹底した理解が必要であると主張する。
論文 参考訳(メタデータ) (2020-12-09T22:13:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。