Fugu-MT 論文翻訳(概要): An In-Depth Analysis of Data Reduction Methods for Sustainable Deep Learning

論文の概要: An In-Depth Analysis of Data Reduction Methods for Sustainable Deep Learning

arxiv url: http://arxiv.org/abs/2403.15150v1
Date: Fri, 22 Mar 2024 12:06:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-25 17:38:51.127202
Title: An In-Depth Analysis of Data Reduction Methods for Sustainable Deep Learning
Title（参考訳）: 持続的深層学習のためのデータ削減手法の深さ解析
Authors: Víctor Toscano-Durán, Javier Perera-Lago, Eduardo Paluzo-Hidalgo, Rocío Gonzalez-Diaz, Miguel Ángel Gutierrez-Naranjo, Matteo Rucco,
Abstract要約: トレーニングデータセットのサイズを減らすために、最大8つの異なる方法を提示します。また、それらを適用するPythonパッケージも開発しています。これらのデータ削減手法がデータセットの表現性に与える影響を実験的に比較した。
参考スコア（独自算出の注目度）: 0.15833270109954137
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In recent years, Deep Learning has gained popularity for its ability to solve complex classification tasks, increasingly delivering better results thanks to the development of more accurate models, the availability of huge volumes of data and the improved computational capabilities of modern computers. However, these improvements in performance also bring efficiency problems, related to the storage of datasets and models, and to the waste of energy and time involved in both the training and inference processes. In this context, data reduction can help reduce energy consumption when training a deep learning model. In this paper, we present up to eight different methods to reduce the size of a tabular training dataset, and we develop a Python package to apply them. We also introduce a representativeness metric based on topology to measure how similar are the reduced datasets and the full training dataset. Additionally, we develop a methodology to apply these data reduction methods to image datasets for object detection tasks. Finally, we experimentally compare how these data reduction methods affect the representativeness of the reduced dataset, the energy consumption and the predictive performance of the model.
Abstract（参考訳）: 近年、Deep Learningは複雑な分類タスクを解く能力で人気を集め、より正確なモデルの開発、大量のデータの提供、現代のコンピュータの計算能力の向上などにより、より良い結果をもたらすようになった。しかしながら、これらのパフォーマンスの改善は、データセットやモデルの保存や、トレーニングプロセスと推論プロセスの両方にかかわるエネルギーと時間の無駄に関連する効率上の問題ももたらします。この文脈では、深層学習モデルのトレーニングにおいて、データ削減はエネルギー消費を減らすのに役立つ。本稿では,最大8種類のトレーニングデータセットのサイズを縮小する手法を提案し,それらを適用するためのPythonパッケージを開発する。また、トポロジに基づく代表性メトリクスを導入し、削減されたデータセットと完全なトレーニングデータセットがどの程度類似しているかを測定します。さらに,これらのデータ削減手法をオブジェクト検出タスクのための画像データセットに適用する手法を開発した。最後に、これらのデータ削減手法が、削減されたデータセットの表現性、エネルギー消費、モデルの予測性能にどのように影響するかを実験的に比較した。

関連論文リスト

Scaling DRL for Decision Making: A Survey on Data, Network, and Training Budget Strategies [66.83950068218033]
スケーリング法則は、モデルのパラメータとトレーニングデータによって学習のパフォーマンスが向上することを示している。性能向上の可能性にもかかわらず、スケーリング法則を深層強化学習に統合することは、完全には実現されていない。本稿では,データ,ネットワーク,トレーニング予算という3次元のスケーリング戦略を体系的に分析することによって,このギャップに対処する。
論文参考訳（メタデータ） (2025-08-05T08:03:12Z)
Exploring Training and Inference Scaling Laws in Generative Retrieval [50.82554729023865]
生成検索は、検索を自己回帰生成タスクとして再構成し、大きな言語モデルがクエリから直接ターゲット文書を生成する。生成的検索におけるトレーニングと推論のスケーリング法則を体系的に検討し,モデルのサイズ,トレーニングデータスケール,推論時間計算が協調的に性能に与える影響について検討した。
論文参考訳（メタデータ） (2025-03-24T17:59:03Z)
Same accuracy, twice as fast: continuous training surpasses retraining from scratch [40.678628069564745]
連続学習は、モデルが学習したデータのパフォーマンスを損なうことなく、新しいデータセットに適応できるようにすることを目的としている。場合によっては、以前のデータでトレーニングされたモデルを放棄し、両方のデータセットでスクラッチから新しいモデルを再トレーニングすることで、両方のデータセットのパフォーマンスが向上する。評価フレームワークは,これらの手法をスクラッチからトレーニング性能を維持したり,超えたりしながら,計算的貯蓄量を定量化する。
論文参考訳（メタデータ） (2025-02-28T15:28:12Z)
Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2024-12-12T18:28:55Z)
Large-Scale Dataset Pruning in Adversarial Training through Data Importance Extrapolation [1.3124513975412255]
本稿では,少数のデータ集合からより大きなデータ集合へのデータ重要度スコアの補間に基づく新たなデータ抽出戦略を提案する。実験的な評価では,外挿型プルーニングは頑健性を維持しつつ,データセットサイズを効率的に削減できることを示した。
論文参考訳（メタデータ） (2024-06-19T07:23:51Z)
Improvement of Applicability in Student Performance Prediction Based on Transfer Learning [2.3290007848431955]
本研究では,様々な分布を持つデータセットの転送学習手法を用いて,予測精度を向上させる手法を提案する。モデルは、その一般化能力と予測精度を高めるために訓練され、評価された。実験により, この手法は根平均角誤差 (RMSE) と平均絶対誤差 (MAE) の低減に優れていることが示された。結果は、より多くのレイヤを凍結することで、複雑でノイズの多いデータのパフォーマンスが向上することを示した。
論文参考訳（メタデータ） (2024-06-01T13:09:05Z)
Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文参考訳（メタデータ） (2024-04-22T09:16:14Z)
The Power of Few: Accelerating and Enhancing Data Reweighting with Coreset Selection [18.683805940232485]
再重み付けにコアサブセット選択を用いる新しい手法を提案する。戦略的に選択されたコアセットに焦点を当てることで、我々のアプローチは堅牢な表現を提供する。再校正された重みは、データセット全体に対してマッピングされ、伝播される。
論文参考訳（メタデータ） (2024-03-18T18:30:22Z)
Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文参考訳（メタデータ） (2023-12-07T07:17:24Z)
Efficiently Robustify Pre-trained Models [18.392732966487582]
大規模モデルの現実的な設定に対する堅牢性は、いまだ探索されていないトピックである。まず、異なる摂動とデータセットの下でこれらのモデルのパフォーマンスをベンチマークします。続いて、大規模ネットワークにおいて、モデルファインチューニングに基づく既存のロバスト化スキームが拡張性に欠ける可能性について論じる。
論文参考訳（メタデータ） (2023-09-14T08:07:49Z)
Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文参考訳（メタデータ） (2023-07-19T04:07:33Z)
Minimizing the Accumulated Trajectory Error to Improve Dataset Distillation [151.70234052015948]
本稿では,フラットな軌道を求める最適化アルゴリズムを提案する。合成データに基づいてトレーニングされた重みは、平坦な軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。本手法はFTD (Flat Trajectory Distillation) と呼ばれ, 勾配整合法の性能を最大4.7%向上させる。
論文参考訳（メタデータ） (2022-11-20T15:49:11Z)
Towards Robust Dataset Learning [90.2590325441068]
本稿では,頑健なデータセット学習問題を定式化するための三段階最適化法を提案する。ロバストな特徴と非ロバストな特徴を特徴付ける抽象モデルの下で,提案手法はロバストなデータセットを確実に学習する。
論文参考訳（メタデータ） (2022-11-19T17:06:10Z)
Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文参考訳（メタデータ） (2022-09-29T18:11:01Z)
Dataset Condensation with Gradient Matching [36.14340188365505]
本研究では,大規模なデータセットを,深層ニューラルネットワークをスクラッチからトレーニングするための情報的合成サンプルの小さなセットに凝縮させることを学習する,データセット凝縮という,データ効率のよい学習のためのトレーニングセット合成手法を提案する。いくつかのコンピュータビジョンベンチマークでその性能を厳格に評価し、最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2020-06-10T16:30:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。