論文の概要: Stable Anderson Acceleration for Deep Learning
- arxiv url: http://arxiv.org/abs/2110.14813v1
- Date: Tue, 26 Oct 2021 14:52:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-29 16:54:23.864100
- Title: Stable Anderson Acceleration for Deep Learning
- Title(参考訳): 深層学習のための安定アンダーソン加速度
- Authors: Massimiliano Lupo Pasini, Junqi Yin, Viktor Reshniak, Miroslav
Stoyanov
- Abstract要約: AndersonAcceleration (AA) は、DLモデルの反復訓練から生じるような固定点反復を高速化するように設計されている。
AAと適応的な移動平均手順を組み合わせることで、振動を円滑にし、より定期的な降下更新を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Anderson acceleration (AA) is an extrapolation technique designed to speed-up
fixed-point iterations like those arising from the iterative training of DL
models. Training DL models requires large datasets processed in randomly
sampled batches that tend to introduce in the fixed-point iteration stochastic
oscillations of amplitude roughly inversely proportional to the size of the
batch. These oscillations reduce and occasionally eliminate the positive effect
of AA. To restore AA's advantage, we combine it with an adaptive moving average
procedure that smoothes the oscillations and results in a more regular sequence
of gradient descent updates. By monitoring the relative standard deviation
between consecutive iterations, we also introduce a criterion to automatically
assess whether the moving average is needed. We applied the method to the
following DL instantiations: (i) multi-layer perceptrons (MLPs) trained on the
open-source graduate admissions dataset for regression, (ii) physics informed
neural networks (PINNs) trained on source data to solve 2d and 100d Burgers'
partial differential equations (PDEs), and (iii) ResNet50 trained on the
open-source ImageNet1k dataset for image classification. Numerical results
obtained using up to 1,536 NVIDIA V100 GPUs on the OLCF supercomputer Summit
showed the stabilizing effect of the moving average on AA for all the problems
above.
- Abstract(参考訳): AndersonAcceleration (AA) は、DLモデルの反復訓練から生じるような固定点反復を高速化するために設計された外挿技術である。
DLモデルのトレーニングには、ランダムにサンプリングされたバッチで処理される大規模なデータセットが必要である。
これらの振動はAAの正の効果を減少させる。
AAの利点を回復するために、振動を滑らかにし、より規則的な勾配降下更新をもたらす適応的な移動平均手順と組み合わせる。
連続するイテレーション間の相対的な標準偏差を監視することにより、移動平均が必要かどうかを自動的に評価する基準も導入する。
本手法を以下のDLインスタンス化に適用した。
(i)オープンソースの大学院受験データセットを用いた回帰学習のための多層パーセプトロン(MLP)
(II)2dおよび100d Burgers偏微分方程式(PDE)を解くために音源データに基づいて訓練された物理情報ニューラルネットワーク(PINN)
(iii)画像分類のためのオープンソースのimagenet1kデータセットでトレーニングされたresnet50。
OLCFスーパーコンピュータサミットで最大1,536個のNVIDIA V100 GPUを用いて得られた数値結果は、上記すべての問題に対して移動平均の安定化効果を示した。
関連論文リスト
- Ambient Diffusion Posterior Sampling: Solving Inverse Problems with
Diffusion Models trained on Corrupted Data [56.81246107125692]
Ambient Diffusion Posterior Smpling (A-DPS) は、ある種類の腐敗に対して事前訓練された生成モデルである。
A-DPSは、いくつかの画像復元タスクにおいて、クリーンなデータで訓練されたモデルよりも、速度と性能の両方で優れていることが示される。
我々はAmbient Diffusionフレームワークを拡張して、FourierサブサンプルのマルチコイルMRI測定にのみアクセスしてMRIモデルをトレーニングする。
論文 参考訳(メタデータ) (2024-03-13T17:28:20Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - DaFoEs: Mixing Datasets towards the generalization of vision-state
deep-learning Force Estimation in Minimally Invasive Robotic Surgery [6.55111164866752]
深部神経モデルのトレーニングを行うために,様々なソフト環境を持つ新しい視覚触覚データセット(DaFoEs)を提案する。
また,単一入力や入力シーケンスを用いて腹腔鏡ツールが行う力を予測するための可変エンコーダデコーダアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-01-17T14:39:55Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Stable Target Field for Reduced Variance Score Estimation in Diffusion
Models [5.9115407007859755]
拡散モデルは、固定された前方拡散過程を反転させてサンプルを生成する。
このような分散の源泉は、中間雑音分散スケールの取り扱いにあると論じる。
より安定したトレーニングターゲットとして重み付けされた条件スコアを計算するために使用する参照バッチを組み込むことにより、この問題を修復することを提案する。
論文 参考訳(メタデータ) (2023-02-01T18:57:01Z) - Post-Processing Temporal Action Detection [134.26292288193298]
時間的行動検出(TAD)法は、通常、入力された可変長のビデオを固定長のスニペット表現シーケンスに変換する際に、前処理のステップを踏む。
この前処理ステップは、ビデオを時間的にダウンサンプリングし、推論の解像度を低減し、元の時間分解における検出性能を阻害する。
モデルの再設計や再学習を伴わない新しいモデル非依存のポストプロセッシング手法を提案する。
論文 参考訳(メタデータ) (2022-11-27T19:50:37Z) - Loop Unrolled Shallow Equilibrium Regularizer (LUSER) -- A
Memory-Efficient Inverse Problem Solver [26.87738024952936]
逆問題では、潜在的に破損し、しばしば不適切な測定結果から、いくつかの基本的な関心のシグナルを再構築することを目的としている。
浅い平衡正規化器(L)を用いたLUアルゴリズムを提案する。
これらの暗黙のモデルは、より深い畳み込みネットワークと同じくらい表現力があるが、トレーニング中にはるかにメモリ効率が良い。
論文 参考訳(メタデータ) (2022-10-10T19:50:37Z) - GradViT: Gradient Inversion of Vision Transformers [83.54779732309653]
我々は,視力変換器(ViT)の勾配に基づく逆攻撃に対する脆弱性を実証する。
自然に見える画像にランダムノイズを最適化するGradViTという手法を提案する。
元の(隠された)データに対する前例のない高い忠実さと近接性を観察する。
論文 参考訳(メタデータ) (2022-03-22T17:06:07Z) - Plug-and-Play Anomaly Detection with Expectation Maximization Filtering [9.642625267699488]
群衆監視のためのプラグアンドプレイのスマートカメラは、典型的な異常検出とは異なる多くの制約がある。
本研究では,現場の物体の動作を教師なしで学習するコア異常検出ニューラルネットワークを提案する。
私たちの研究は、自律的なプラグアンドプレイ型スマートカメラを使って、群衆の異常検出にディープラーニングを使うための第一歩だと信じています。
論文 参考訳(メタデータ) (2020-06-16T05:28:40Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Software-Level Accuracy Using Stochastic Computing With
Charge-Trap-Flash Based Weight Matrix [2.580765958706854]
チャージトラップフラッシュ(CTF)メモリは飽和前に大量のレベルを持つが、非線形性は変化しない。
シミュレーションにより、最適範囲の選択において、我々のシステムは正確な浮動小数点演算を用いて訓練されたモデルとほぼ同等の性能を示すことを示す。
また,Q-Learningにおける価値関数近似に使用される強化学習にも応用し,約146ステップでマウンテンカー制御問題を完成させる。
論文 参考訳(メタデータ) (2020-03-09T02:45:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。