論文の概要: An In-Depth Analysis of Data Reduction Methods for Sustainable Deep Learning
- arxiv url: http://arxiv.org/abs/2403.15150v1
- Date: Fri, 22 Mar 2024 12:06:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 17:38:51.127202
- Title: An In-Depth Analysis of Data Reduction Methods for Sustainable Deep Learning
- Title(参考訳): 持続的深層学習のためのデータ削減手法の深さ解析
- Authors: Víctor Toscano-Durán, Javier Perera-Lago, Eduardo Paluzo-Hidalgo, Rocío Gonzalez-Diaz, Miguel Ángel Gutierrez-Naranjo, Matteo Rucco,
- Abstract要約: トレーニングデータセットのサイズを減らすために、最大8つの異なる方法を提示します。
また、それらを適用するPythonパッケージも開発しています。
これらのデータ削減手法がデータセットの表現性に与える影響を実験的に比較した。
- 参考スコア(独自算出の注目度): 0.15833270109954137
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, Deep Learning has gained popularity for its ability to solve complex classification tasks, increasingly delivering better results thanks to the development of more accurate models, the availability of huge volumes of data and the improved computational capabilities of modern computers. However, these improvements in performance also bring efficiency problems, related to the storage of datasets and models, and to the waste of energy and time involved in both the training and inference processes. In this context, data reduction can help reduce energy consumption when training a deep learning model. In this paper, we present up to eight different methods to reduce the size of a tabular training dataset, and we develop a Python package to apply them. We also introduce a representativeness metric based on topology to measure how similar are the reduced datasets and the full training dataset. Additionally, we develop a methodology to apply these data reduction methods to image datasets for object detection tasks. Finally, we experimentally compare how these data reduction methods affect the representativeness of the reduced dataset, the energy consumption and the predictive performance of the model.
- Abstract(参考訳): 近年、Deep Learningは複雑な分類タスクを解く能力で人気を集め、より正確なモデルの開発、大量のデータの提供、現代のコンピュータの計算能力の向上などにより、より良い結果をもたらすようになった。
しかしながら、これらのパフォーマンスの改善は、データセットやモデルの保存や、トレーニングプロセスと推論プロセスの両方にかかわるエネルギーと時間の無駄に関連する効率上の問題ももたらします。
この文脈では、深層学習モデルのトレーニングにおいて、データ削減はエネルギー消費を減らすのに役立つ。
本稿では,最大8種類のトレーニングデータセットのサイズを縮小する手法を提案し,それらを適用するためのPythonパッケージを開発する。
また、トポロジに基づく代表性メトリクスを導入し、削減されたデータセットと完全なトレーニングデータセットがどの程度類似しているかを測定します。
さらに,これらのデータ削減手法をオブジェクト検出タスクのための画像データセットに適用する手法を開発した。
最後に、これらのデータ削減手法が、削減されたデータセットの表現性、エネルギー消費、モデルの予測性能にどのように影響するかを実験的に比較した。
関連論文リスト
- Large-Scale Dataset Pruning in Adversarial Training through Data Importance Extrapolation [1.3124513975412255]
本稿では,少数のデータ集合からより大きなデータ集合へのデータ重要度スコアの補間に基づく新たなデータ抽出戦略を提案する。
実験的な評価では,外挿型プルーニングは頑健性を維持しつつ,データセットサイズを効率的に削減できることを示した。
論文 参考訳(メタデータ) (2024-06-19T07:23:51Z) - Improvement of Applicability in Student Performance Prediction Based on Transfer Learning [2.3290007848431955]
本研究では,様々な分布を持つデータセットの転送学習手法を用いて,予測精度を向上させる手法を提案する。
モデルは、その一般化能力と予測精度を高めるために訓練され、評価された。
実験により, この手法は根平均角誤差 (RMSE) と平均絶対誤差 (MAE) の低減に優れていることが示された。
結果は、より多くのレイヤを凍結することで、複雑でノイズの多いデータのパフォーマンスが向上することを示した。
論文 参考訳(メタデータ) (2024-06-01T13:09:05Z) - Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。
提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文 参考訳(メタデータ) (2024-04-22T09:16:14Z) - The Power of Few: Accelerating and Enhancing Data Reweighting with Coreset Selection [18.683805940232485]
再重み付けにコアサブセット選択を用いる新しい手法を提案する。
戦略的に選択されたコアセットに焦点を当てることで、我々のアプローチは堅牢な表現を提供する。
再校正された重みは、データセット全体に対してマッピングされ、伝播される。
論文 参考訳(メタデータ) (2024-03-18T18:30:22Z) - Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - Efficiently Robustify Pre-trained Models [18.392732966487582]
大規模モデルの現実的な設定に対する堅牢性は、いまだ探索されていないトピックである。
まず、異なる摂動とデータセットの下でこれらのモデルのパフォーマンスをベンチマークします。
続いて、大規模ネットワークにおいて、モデルファインチューニングに基づく既存のロバスト化スキームが拡張性に欠ける可能性について論じる。
論文 参考訳(メタデータ) (2023-09-14T08:07:49Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Minimizing the Accumulated Trajectory Error to Improve Dataset
Distillation [151.70234052015948]
本稿では,フラットな軌道を求める最適化アルゴリズムを提案する。
合成データに基づいてトレーニングされた重みは、平坦な軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。
本手法はFTD (Flat Trajectory Distillation) と呼ばれ, 勾配整合法の性能を最大4.7%向上させる。
論文 参考訳(メタデータ) (2022-11-20T15:49:11Z) - Towards Robust Dataset Learning [90.2590325441068]
本稿では,頑健なデータセット学習問題を定式化するための三段階最適化法を提案する。
ロバストな特徴と非ロバストな特徴を特徴付ける抽象モデルの下で,提案手法はロバストなデータセットを確実に学習する。
論文 参考訳(メタデータ) (2022-11-19T17:06:10Z) - Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。
データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。
この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-29T18:11:01Z) - Dataset Condensation with Gradient Matching [36.14340188365505]
本研究では,大規模なデータセットを,深層ニューラルネットワークをスクラッチからトレーニングするための情報的合成サンプルの小さなセットに凝縮させることを学習する,データセット凝縮という,データ効率のよい学習のためのトレーニングセット合成手法を提案する。
いくつかのコンピュータビジョンベンチマークでその性能を厳格に評価し、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-10T16:30:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。