論文の概要: New Properties of the Data Distillation Method When Working With Tabular
Data
- arxiv url: http://arxiv.org/abs/2010.09839v1
- Date: Mon, 19 Oct 2020 20:27:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 20:46:42.744193
- Title: New Properties of the Data Distillation Method When Working With Tabular
Data
- Title(参考訳): 表データ処理におけるデータ蒸留法の新たな特性
- Authors: Dmitry Medvedev, Alexander D'yakonov
- Abstract要約: データ蒸留は、必要な情報のみを保持しながら、トレーニングデータの量を減らす問題である。
蒸留した試料でトレーニングしたモデルは、元のデータセットでトレーニングしたモデルより優れていることを示す。
- 参考スコア(独自算出の注目度): 77.34726150561087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data distillation is the problem of reducing the volume oftraining data while
keeping only the necessary information. With thispaper, we deeper explore the
new data distillation algorithm, previouslydesigned for image data. Our
experiments with tabular data show thatthe model trained on distilled samples
can outperform the model trainedon the original dataset. One of the problems of
the considered algorithmis that produced data has poor generalization on models
with differenthyperparameters. We show that using multiple architectures during
distillation can help overcome this problem.
- Abstract(参考訳): データ蒸留は必要な情報のみを保持しながらデータの量を減らす問題である。
本稿では,以前に画像データ用に設計された新しいデータ蒸留アルゴリズムについて詳しく検討する。
グラフデータを用いた実験により, 蒸留試料でトレーニングしたモデルが, 元のデータセットでトレーニングしたモデルより優れていることが示された。
データを生成するアルゴリズムの問題の一つは、異なるハイパーパラメータを持つモデルの一般化が不十分である。
蒸留中に複数のアーキテクチャを使用することで,この問題を克服できることを示す。
関連論文リスト
- What is Dataset Distillation Learning? [32.99890244958794]
本研究では, 蒸留データの挙動, 代表性, ポイントワイド情報量について検討する。
蒸留したデータは、トレーニング中に実際のデータに代わるものとしては役に立たない。
蒸留データを解釈し、個別の蒸留データポイントが意味のある意味情報を含んでいることを示す枠組みを提供する。
論文 参考訳(メタデータ) (2024-06-06T17:28:56Z) - Exploring the potential of prototype-based soft-labels data distillation for imbalanced data classification [0.0]
主な目的は、分類精度の観点からプロトタイプベースの軟質ラベル蒸留の性能を高めることである。
実験的研究は、この方法でデータを蒸留する能力だけでなく、増量法として機能する機会も追求している。
論文 参考訳(メタデータ) (2024-03-25T19:15:19Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。
蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。
蒸留における因果関係から最も寄与した試料を見出した。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - Generalizing Dataset Distillation via Deep Generative Prior [75.9031209877651]
本稿では,データセット全体の知識をいくつかの合成画像に抽出することを提案する。
このアイデアは、学習アルゴリズムにトレーニングデータとして与えられる少数の合成データポイントを合成し、結果として元のデータに基づいてトレーニングされたデータを近似するモデルを構築する。
生成モデルの潜在空間における複数の中間特徴ベクトルに多数の画像を蒸留する新しい最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-02T17:59:31Z) - Minimizing the Accumulated Trajectory Error to Improve Dataset
Distillation [151.70234052015948]
本稿では,フラットな軌道を求める最適化アルゴリズムを提案する。
合成データに基づいてトレーニングされた重みは、平坦な軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。
本手法はFTD (Flat Trajectory Distillation) と呼ばれ, 勾配整合法の性能を最大4.7%向上させる。
論文 参考訳(メタデータ) (2022-11-20T15:49:11Z) - Dataset Distillation using Neural Feature Regression [32.53291298089172]
ニューラル・フィーチャー・レグレッション・アンド・プール(FRePo)を用いたデータセット蒸留アルゴリズムを開発した。
FRePoは、メモリ要件を桁違いに少なくし、以前の方法よりも2桁高速なトレーニングで最先端のパフォーマンスを実現している。
我々は,高品質な蒸留データにより,連続学習や会員推測防衛など,下流の様々な応用を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-06-01T19:02:06Z) - Learning to Generate Synthetic Training Data using Gradient Matching and
Implicit Differentiation [77.34726150561087]
本稿では,深層ネットワークの訓練に要するデータ量を削減できる各種データ蒸留技術について検討する。
近年の考え方に触発されて, 生成的学習ネットワーク, 勾配マッチング, インプリシット関数理論に基づく新しいデータ蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T11:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。