論文の概要: Exploring Variance Reduction in Importance Sampling for Efficient DNN Training
- arxiv url: http://arxiv.org/abs/2501.13296v1
- Date: Thu, 23 Jan 2025 00:43:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:59:22.671336
- Title: Exploring Variance Reduction in Importance Sampling for Efficient DNN Training
- Title(参考訳): 効果的なDNN訓練のための重要度サンプリングにおける可変化の探索
- Authors: Takuro Kutsuna,
- Abstract要約: 本稿では,深層ニューラルネットワーク(DNN)トレーニングにおいて,重要サンプリング下でサンプリングされたミニバッチのみを用いて分散低減を推定する手法を提案する。
また、重要度サンプリングの効率を定量化する絶対測度と、移動勾配統計に基づく重要度スコアのリアルタイム推定アルゴリズムも導入する。
- 参考スコア(独自算出の注目度): 1.7767466724342067
- License:
- Abstract: Importance sampling is widely used to improve the efficiency of deep neural network (DNN) training by reducing the variance of gradient estimators. However, efficiently assessing the variance reduction relative to uniform sampling remains challenging due to computational overhead. This paper proposes a method for estimating variance reduction during DNN training using only minibatches sampled under importance sampling. By leveraging the proposed method, the paper also proposes an effective minibatch size to enable automatic learning rate adjustment. An absolute metric to quantify the efficiency of importance sampling is also introduced as well as an algorithm for real-time estimation of importance scores based on moving gradient statistics. Theoretical analysis and experiments on benchmark datasets demonstrated that the proposed algorithm consistently reduces variance, improves training efficiency, and enhances model accuracy compared with current importance-sampling approaches while maintaining minimal computational overhead.
- Abstract(参考訳): 重要サンプリングは、勾配推定器のばらつきを低減し、ディープニューラルネットワーク(DNN)トレーニングの効率を向上させるために広く使用されている。
しかし, 計算オーバーヘッドのため, 均一サンプリングによる分散低減を効果的に評価することは困難である。
本稿では,DNNトレーニングにおいて,重要サンプリング下でサンプリングされたミニバッチのみを用いて分散低減を推定する手法を提案する。
また,提案手法を活用することで,学習率の自動調整を実現するために,効率的なミニバッチサイズを提案する。
また、重要度サンプリングの効率を定量化する絶対測度と、移動勾配統計に基づく重要度スコアのリアルタイム推定アルゴリズムも導入する。
ベンチマークデータセットの理論的解析と実験により、提案アルゴリズムは分散を一貫して低減し、訓練効率を向上し、計算オーバーヘッドを最小限に抑えつつ、現在の重要度サンプリングアプローチと比較してモデルの精度を向上させることを示した。
関連論文リスト
- Gradient Descent Efficiency Index [0.0]
本研究では,各イテレーションの有効性を定量化するために,新しい効率指標Ekを導入する。
提案した測定基準は、誤差の相対的変化と繰り返し間の損失関数の安定性の両方を考慮に入れている。
Ekは、機械学習アプリケーションにおける最適化アルゴリズムの選択とチューニングにおいて、より詳細な決定を導く可能性がある。
論文 参考訳(メタデータ) (2024-10-25T10:22:22Z) - STATE: A Robust ATE Estimator of Heavy-Tailed Metrics for Variance Reduction in Online Controlled Experiments [22.32661807469984]
我々は、学生のt分布と機械学習ツールを統合して、ヘビーテールのメトリクスに適合する新しいフレームワークを開発する。
ログ類似度関数を最適化するために変分EM法を採用することにより、アウトリアの負の影響を大幅に排除するロバストな解を推測できる。
Meituan実験プラットフォーム上での合成データと長期実験結果のシミュレーションにより,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-07-23T09:35:59Z) - Efficient Backpropagation with Variance-Controlled Adaptive Sampling [32.297478086982466]
前方および/または後方伝播(BP)中の'重要'な計算を排除したサンプリングベースのアルゴリズムは、ニューラルネットワークトレーニングを加速するための潜在的なソリューションを提供する。
本稿では,BPの高速化を目的とした分散制御型適応サンプリング(VCAS)手法を提案する。
VCASは、トレーニングプロセス全体の73.87%のFLOPs削減と49.58%のFLOPs削減で、元のトレーニング損失軌跡と検証精度を維持することができる。
論文 参考訳(メタデータ) (2024-02-27T05:40:36Z) - Efficient Gradient Estimation via Adaptive Sampling and Importance
Sampling [34.50693643119071]
適応的あるいは重要なサンプリングは、勾配推定におけるノイズを低減する。
本稿では,既存の重要関数をフレームワークに組み込むアルゴリズムを提案する。
計算オーバーヘッドを最小限に抑えた分類・回帰タスクにおける収束性の改善を観察する。
論文 参考訳(メタデータ) (2023-11-24T13:21:35Z) - Adaptive Sketches for Robust Regression with Importance Sampling [64.75899469557272]
我々は、勾配降下(SGD)による頑健な回帰を解くためのデータ構造を導入する。
我々のアルゴリズムは、サブ線形空間を使用し、データに1回パスするだけで、SGDの$T$ステップを重要サンプリングで効果的に実行します。
論文 参考訳(メタデータ) (2022-07-16T03:09:30Z) - Sampling-free Variational Inference for Neural Networks with
Multiplicative Activation Noise [51.080620762639434]
サンプリングフリー変動推論のための後方近似のより効率的なパラメータ化を提案する。
提案手法は,標準回帰問題に対する競合的な結果をもたらし,大規模画像分類タスクに適している。
論文 参考訳(メタデータ) (2021-03-15T16:16:18Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - Bandit Samplers for Training Graph Neural Networks [63.17765191700203]
グラフ畳み込みネットワーク(GCN)の訓練を高速化するために, ばらつきを低減したサンプリングアルゴリズムが提案されている。
これらのサンプリングアルゴリズムは、グラフ注意ネットワーク(GAT)のような固定重みよりも学習重量を含む、より一般的なグラフニューラルネットワーク(GNN)には適用できない。
論文 参考訳(メタデータ) (2020-06-10T12:48:37Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - A Dynamic Sampling Adaptive-SGD Method for Machine Learning [8.173034693197351]
本稿では,勾配近似の計算に使用されるバッチサイズと,その方向に移動するステップサイズを適応的に制御する手法を提案する。
提案手法は局所曲率情報を利用して探索方向を高い確率で降下方向とする。
数値実験により、この手法は最適な学習率を選択することができ、ロジスティック回帰とDNNを訓練するための微調整されたSGDと好適に比較できることが示された。
論文 参考訳(メタデータ) (2019-12-31T15:36:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。