Fugu-MT 論文翻訳(概要): Data Cleansing for Deep Neural Networks with Storage-efficient Approximation of Influence Functions

論文の概要: Data Cleansing for Deep Neural Networks with Storage-efficient Approximation of Influence Functions

arxiv url: http://arxiv.org/abs/2103.11807v1
Date: Mon, 22 Mar 2021 13:08:46 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-24 00:36:18.550420
Title: Data Cleansing for Deep Neural Networks with Storage-efficient Approximation of Influence Functions
Title（参考訳）: 影響関数のストレージ効率近似による深層ニューラルネットワークのデータクリーニング
Authors: Kenji Suzuki, Yoshiyuki Kobayashi, Takuya Narihira
Abstract要約: 推論スコアを計算するためのトレーニングフェーズにパラメータを格納するキャッシュファイルを削減する方法を提案する。分類に関する実験では、MNISTデータセットを用いたトレーニングのキャッシュサイズが1.236MBである。ニューラルネットワークコンソールを使わずに自動MLツール上で,インフルエンススコアを計算するための単純で汎用的な手法を提案する。
参考スコア（独自算出の注目度）: 6.544437737391409
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Identifying the influence of training data for data cleansing can improve the accuracy of deep learning. An approach with stochastic gradient descent (SGD) called SGD-influence to calculate the influence scores was proposed, but, the calculation costs are expensive. It is necessary to temporally store the parameters of the model during training phase for inference phase to calculate influence sores. In close connection with the previous method, we propose a method to reduce cache files to store the parameters in training phase for calculating inference score. We only adopt the final parameters in last epoch for influence functions calculation. In our experiments on classification, the cache size of training using MNIST dataset with our approach is 1.236 MB. On the other hand, the previous method used cache size of 1.932 GB in last epoch. It means that cache size has been reduced to 1/1,563. We also observed the accuracy improvement by data cleansing with removal of negatively influential data using our approach as well as the previous method. Moreover, our simple and general proposed method to calculate influence scores is available on our auto ML tool without programing, Neural Network Console. The source code is also available.
Abstract（参考訳）: データクリーニングにおけるトレーニングデータの影響を特定することで、ディープラーニングの精度を向上させることができる。 SGD-インフルエンスと呼ばれる確率勾配降下(SGD)を用いた影響評価手法を提案するが,計算コストは高い。推論フェーズのトレーニングフェーズにおいて,モデルのパラメータを時間的に保存し,影響度を算出する必要がある。従来の手法と密接な関係で,パラメータをトレーニングフェーズに格納するキャッシュファイルを削減し,推論スコアを計算する手法を提案する。影響関数の計算には最終段階のパラメータのみを採用する。分類実験では,MNISTデータセットを用いたトレーニングのキャッシュサイズは1.236MBである。一方,前回のキャッシュサイズは前回の1.932gbであった。キャッシュサイズが1/1,563に縮小されたことを意味する。また,従来手法と同様に負の影響のあるデータを除去し,データのクレンジングによる精度の向上も確認した。さらに,ニューラルネットワークコンソールを使わずに自動MLツール上で,インフルエンススコアを計算するための単純で汎用的な手法を提案する。ソースコードも公開されている。

関連論文リスト

Efficient Data Selection at Scale via Influence Distillation [53.03573620682107]
本稿では,データ選択のための数学的に修飾されたフレームワークであるインフルエンス蒸留を紹介する。対象分布に対する各試料の影響を蒸留することにより,トレーニングデータの選択に使用されるモデル固有の重みを割り当てる。実験の結果、蒸留の影響は最先端のパフォーマンスに匹敵し、最大3.5タイムの高速選択を実現していることがわかった。
論文参考訳（メタデータ） (2025-05-25T09:08:00Z)
Learning Hyperparameters via a Data-Emphasized Variational Objective [4.453137996095194]
ベイズ変分法から得られたエビデンスローバウンド(ELBo)目標を通した全トレーニングセット上での正規化ハイパーパラメータの勾配に基づく直接学習を検討する。このようなシナリオでは、ELBoは事前のばらつきにマッチする後方を優先順位付けし、データの過小評価につながる。提案手法は,過去の作業の88時間以上のグリッド検索を3時間以内の精度で行う。
論文参考訳（メタデータ） (2025-02-03T22:19:35Z)
Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2024-12-12T18:28:55Z)
Efficient Gradient Estimation via Adaptive Sampling and Importance Sampling [34.50693643119071]
適応的あるいは重要なサンプリングは、勾配推定におけるノイズを低減する。本稿では,既存の重要関数をフレームワークに組み込むアルゴリズムを提案する。計算オーバーヘッドを最小限に抑えた分類・回帰タスクにおける収束性の改善を観察する。
論文参考訳（メタデータ） (2023-11-24T13:21:35Z)
KAKURENBO: Adaptively Hiding Samples in Deep Neural Network Training [2.8804804517897935]
深層ニューラルネットワークのトレーニングにおいて,最も重要でないサンプルを隠蔽する手法を提案する。我々は,学習プロセス全体への貢献に基づいて,与えられたエポックを除外するサンプルを適応的に見つける。本手法は, ベースラインと比較して, 最大22%の精度でトレーニング時間を短縮できる。
論文参考訳（メタデータ） (2023-10-16T06:19:29Z)
Post-Processing Temporal Action Detection [134.26292288193298]
時間的行動検出(TAD)法は、通常、入力された可変長のビデオを固定長のスニペット表現シーケンスに変換する際に、前処理のステップを踏む。この前処理ステップは、ビデオを時間的にダウンサンプリングし、推論の解像度を低減し、元の時間分解における検出性能を阻害する。モデルの再設計や再学習を伴わない新しいモデル非依存のポストプロセッシング手法を提案する。
論文参考訳（メタデータ） (2022-11-27T19:50:37Z)
A Memory Transformer Network for Incremental Learning [64.0410375349852]
本研究では,モデルが学習する時間とともに,新しいデータクラスが観察される学習環境であるクラスインクリメンタルラーニングについて検討する。素直な問題定式化にもかかわらず、クラス増分学習への分類モデルの素直な適用は、これまで見られたクラスの「破滅的な忘れ込み」をもたらす。これは、過去のデータのサブセットをメモリバンクに保存し、将来のタスクをトレーニングする際の忘れの防止にそれを活用することで、破滅的な忘れの問題を克服するものだ。
論文参考訳（メタデータ） (2022-10-10T08:27:28Z)
Continual Learning For On-Device Environmental Sound Classification [63.81276321857279]
デバイス上での環境音の分類のための簡易かつ効率的な連続学習法を提案する。本手法は,サンプルごとの分類の不確実性を測定することにより,トレーニングの履歴データを選択する。
論文参考訳（メタデータ） (2022-07-15T12:13:04Z)
Dataset Distillation using Neural Feature Regression [32.53291298089172]
ニューラル・フィーチャー・レグレッション・アンド・プール(FRePo)を用いたデータセット蒸留アルゴリズムを開発した。 FRePoは、メモリ要件を桁違いに少なくし、以前の方法よりも2桁高速なトレーニングで最先端のパフォーマンスを実現している。我々は,高品質な蒸留データにより,連続学習や会員推測防衛など,下流の様々な応用を大幅に改善できることを示す。
論文参考訳（メタデータ） (2022-06-01T19:02:06Z)
Accelerating Deep Learning Classification with Error-controlled Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文参考訳（メタデータ） (2021-12-13T13:49:11Z)
Inf-CP: A Reliable Channel Pruning based on Channel Influence [4.692400531340393]
チャネルプルーニングの最も効果的な方法の1つは、各ニューロンの重要性に基づいてトリムを行うことである。従来の研究は、単一層または複数の連続するニューロンの統計を考慮し、トリムすることを提案した。我々は、アンサンブル学習を用いて、異なるデータバッチのモデルをトレーニングすることを提案する。
論文参考訳（メタデータ） (2021-12-05T09:30:43Z)
Gradient-guided Loss Masking for Neural Machine Translation [27.609155878513334]
本稿では、トレーニングプロセス中にデータ利用を動的に最適化する戦略を検討する。本アルゴリズムは,トレーニングデータとクリーンデータとの勾配アライメントを計算し,負のアライメントでデータをマスクアウトする。 3つのwmt言語ペアを実験した結果,本手法は強いベースラインよりも大きな改善をもたらすことがわかった。
論文参考訳（メタデータ） (2021-02-26T15:41:48Z)
Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。 ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文参考訳（メタデータ） (2020-12-13T03:41:52Z)
Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文参考訳（メタデータ） (2020-08-28T04:29:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。