論文の概要: Online Importance Sampling for Stochastic Gradient Optimization
- arxiv url: http://arxiv.org/abs/2311.14468v3
- Date: Tue, 28 Jan 2025 09:29:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 16:38:51.492426
- Title: Online Importance Sampling for Stochastic Gradient Optimization
- Title(参考訳): 確率的勾配最適化のためのオンライン重要度サンプリング
- Authors: Corentin Salaün, Xingchang Huang, Iliyan Georgiev, Niloy J. Mitra, Gurprit Singh,
- Abstract要約: 本稿では,トレーニング中のデータの重要度を効率的に計算する実用的なアルゴリズムを提案する。
また、ネットワーク出力の損失w.r.t.の導出に基づく新しいメトリクスを導入し、ミニバッチの重要度サンプリング用に設計した。
- 参考スコア(独自算出の注目度): 33.42221341526944
- License:
- Abstract: Machine learning optimization often depends on stochastic gradient descent, where the precision of gradient estimation is vital for model performance. Gradients are calculated from mini-batches formed by uniformly selecting data samples from the training dataset. However, not all data samples contribute equally to gradient estimation. To address this, various importance sampling strategies have been developed to prioritize more significant samples. Despite these advancements, all current importance sampling methods encounter challenges related to computational efficiency and seamless integration into practical machine learning pipelines. In this work, we propose a practical algorithm that efficiently computes data importance on-the-fly during training, eliminating the need for dataset preprocessing. We also introduce a novel metric based on the derivative of the loss w.r.t. the network output, designed for mini-batch importance sampling. Our metric prioritizes influential data points, thereby enhancing gradient estimation accuracy. We demonstrate the effectiveness of our approach across various applications. We first perform classification and regression tasks to demonstrate improvements in accuracy. Then, we show how our approach can also be used for online data pruning by identifying and discarding data samples that contribute minimally towards the training loss. This significantly reduce training time with negligible loss in the accuracy of the model.
- Abstract(参考訳): 機械学習の最適化はしばしば確率的勾配勾配に依存し、モデルの性能には勾配推定の精度が不可欠である。
トレーニングデータセットからデータサンプルを均一に選択したミニバッチからグラディエントを算出する。
しかし、すべてのデータサンプルが等しく勾配推定に寄与するわけではない。
これを解決するために、より重要なサンプルを優先するために、様々な重要なサンプリング戦略が開発されている。
これらの進歩にもかかわらず、現在の重要なサンプリング手法はすべて、計算効率と実用的な機械学習パイプラインへのシームレスな統合に関連する課題に直面している。
本研究では,トレーニング中のデータの重要度を効率的に計算し,データセット前処理の必要性を解消する実用的なアルゴリズムを提案する。
また、ネットワーク出力の損失w.r.t.の導出に基づく新しいメトリクスを導入し、ミニバッチの重要度サンプリング用に設計した。
我々の測定基準は、影響力のあるデータポイントを優先し、勾配推定精度を向上する。
様々なアプリケーションにまたがるアプローチの有効性を実証する。
まず分類タスクと回帰タスクを行い、精度の向上を実証する。
そして、トレーニング損失に対して最小限に寄与するデータサンプルを特定し、破棄することで、オンラインデータプルーニングに我々のアプローチをどのように利用できるかを示す。
これにより、モデルの精度を損なうことなく、トレーニング時間を著しく短縮する。
関連論文リスト
- Data Pruning Can Do More: A Comprehensive Data Pruning Approach for Object Re-identification [13.732596789612362]
この研究は、オブジェクトの再識別タスクに適用されたデータプルーニングメソッドの実現可能性について、最初の研究である。
トレーニング中のロジット履歴を十分に活用することにより,本手法は試料の重要度を定量化するための,より正確で包括的な指標を提供する。
提案手法は高効率であり,従来の手法に比べて10倍のコストで重要なスコア推定を行うことができる。
論文 参考訳(メタデータ) (2024-12-13T12:27:47Z) - Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。
軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。
データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-12T18:28:55Z) - FLOPS: Forward Learning with OPtimal Sampling [1.694989793927645]
勾配に基づく計算手法は、最近、クエリとも呼ばれる前方通過のみによる学習に焦点が当てられている。
従来の前方学習はモンテカルロサンプリングによる正確な勾配推定のために各データポイントで膨大なクエリを消費する。
本稿では,評価精度と計算効率のバランスを良くするために,訓練中の各データに対して最適なクエリ数を割り当てることを提案する。
論文 参考訳(メタデータ) (2024-10-08T12:16:12Z) - Adaptive Sampling for Deep Learning via Efficient Nonparametric Proxies [35.29595714883275]
我々は,Nadaraya-Watson推定器に対する効率的なスケッチベース近似を開発した。
サンプリングアルゴリズムは,4つのデータセットに対して,壁面時間と精度でベースラインを上回っている。
論文 参考訳(メタデータ) (2023-11-22T18:40:18Z) - Data Pruning via Moving-one-Sample-out [61.45441981346064]
我々は移動1サンプルアウト(MoSo)と呼ばれる新しいデータ処理手法を提案する。
MoSoは、トレーニングセットから最も分かりにくいサンプルを特定し、削除することを目的としている。
実験結果から,MoSoは高プルーニング比で高い性能劣化を効果的に緩和することが示された。
論文 参考訳(メタデータ) (2023-10-23T08:00:03Z) - KAKURENBO: Adaptively Hiding Samples in Deep Neural Network Training [2.8804804517897935]
深層ニューラルネットワークのトレーニングにおいて,最も重要でないサンプルを隠蔽する手法を提案する。
我々は,学習プロセス全体への貢献に基づいて,与えられたエポックを除外するサンプルを適応的に見つける。
本手法は, ベースラインと比較して, 最大22%の精度でトレーニング時間を短縮できる。
論文 参考訳(メタデータ) (2023-10-16T06:19:29Z) - Improved Fine-tuning by Leveraging Pre-training Data: Theory and
Practice [52.11183787786718]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。
近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。
本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文 参考訳(メタデータ) (2021-11-24T06:18:32Z) - Gradient-guided Loss Masking for Neural Machine Translation [27.609155878513334]
本稿では、トレーニングプロセス中にデータ利用を動的に最適化する戦略を検討する。
本アルゴリズムは,トレーニングデータとクリーンデータとの勾配アライメントを計算し,負のアライメントでデータをマスクアウトする。
3つのwmt言語ペアを実験した結果,本手法は強いベースラインよりも大きな改善をもたらすことがわかった。
論文 参考訳(メタデータ) (2021-02-26T15:41:48Z) - Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。
我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。
トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文 参考訳(メタデータ) (2020-08-28T04:29:54Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。