論文の概要: TENGraD: Time-Efficient Natural Gradient Descent with Exact Fisher-Block
Inversion
- arxiv url: http://arxiv.org/abs/2106.03947v1
- Date: Mon, 7 Jun 2021 20:16:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-10 11:17:05.829046
- Title: TENGraD: Time-Efficient Natural Gradient Descent with Exact Fisher-Block
Inversion
- Title(参考訳): TENGraD:魚ブロックインバージョンで時間効率の良い天然グラディエント染料
- Authors: Saeed Soori, Bugra Can, Baourun Mu, Mert G\"urb\"uzbalaban, Maryam
Mehri Dehnavi
- Abstract要約: この研究は、線形収束保証を備えた時間効率の良い自然勾配 Descent 法である TENGraD を提案する。
CIFAR-10, CIFAR-100, Fashion-Mにおける最先端のディープニューラルアーキテクチャのための画像分類タスクについて実験したところ, TENGraDは最先端NGD法よりも優れており, 壁面時間では勾配降下が多かった。
- 参考スコア(独自算出の注目度): 3.9548535445908928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work proposes a time-efficient Natural Gradient Descent method, called
TENGraD, with linear convergence guarantees. Computing the inverse of the
neural network's Fisher information matrix is expensive in NGD because the
Fisher matrix is large. Approximate NGD methods such as KFAC attempt to improve
NGD's running time and practical application by reducing the Fisher matrix
inversion cost with approximation. However, the approximations do not reduce
the overall time significantly and lead to less accurate parameter updates and
loss of curvature information. TENGraD improves the time efficiency of NGD by
computing Fisher block inverses with a computationally efficient covariance
factorization and reuse method. It computes the inverse of each block exactly
using the Woodbury matrix identity to preserve curvature information while
admitting (linear) fast convergence rates. Our experiments on image
classification tasks for state-of-the-art deep neural architecture on CIFAR-10,
CIFAR-100, and Fashion-MNIST show that TENGraD significantly outperforms
state-of-the-art NGD methods and often stochastic gradient descent in
wall-clock time.
- Abstract(参考訳): この研究は、線形収束保証を備えた時間効率の良い自然勾配 Descent 法である TENGraD を提案する。
ニューラルネットワークのフィッシャー情報行列の逆計算は、フィッシャー行列が大きいためngdでは高価である。
KFACのような近似NGD法は、近似によるフィッシャー行列逆転コストを削減し、NGDの実行時間と実用性を改善する。
しかし、近似は全体の時間を大幅に削減することはなく、正確なパラメータ更新や曲率情報の喪失につながる。
TENGraDは、計算効率の良い共分散分解と再利用法でフィッシャーブロック逆数を計算することにより、NGDの時間効率を改善する。
ウッドベリー行列の正体を用いて各ブロックの逆計算を行い、(線形)高速収束率を許容しながら曲率情報を保存する。
CIFAR-10, CIFAR-100, Fashion-MNISTにおける最先端の深層ニューラルネットワークの画像分類タスクについて実験したところ, TENGraDは最先端のNGD法よりも優れており, 壁面時間では確率的勾配が顕著であることがわかった。
関連論文リスト
- Reconstructing Deep Neural Networks: Unleashing the Optimization Potential of Natural Gradient Descent [12.00557940490703]
本研究では、構造化自然勾配降下(SNGD)と呼ばれる深層ニューラルネットワークを学習するための新しい最適化手法を提案する。
提案手法は,ディープラーニングアプリケーションにおけるNGDのスケーラビリティと効率を大幅に向上させる可能性がある。
論文 参考訳(メタデータ) (2024-12-10T11:57:47Z) - Inverse-Free Fast Natural Gradient Descent Method for Deep Learning [52.0693420699086]
本稿では,第1期における逆転のみを必要とする高速な自然勾配降下法を提案する。
FNGDは1次法の平均和と類似性を示し、FNGDの計算複雑性は1次法に匹敵する。
論文 参考訳(メタデータ) (2024-03-06T05:13:28Z) - SOFIM: Stochastic Optimization Using Regularized Fisher Information Matrix [10.532651329230497]
本稿では、正規化フィッシャー情報行列(FIM)に基づく新しい最適化手法を提案する。
大規模な機械学習モデルでニュートンの勾配更新を見つけるために、FIMを効率的に利用してヘッセン反転行列を近似することができる。
論文 参考訳(メタデータ) (2024-03-05T10:09:31Z) - Large-Scale OD Matrix Estimation with A Deep Learning Method [70.78575952309023]
提案手法は,ディープラーニングと数値最適化アルゴリズムを統合し,行列構造を推論し,数値最適化を導出する。
大規模合成データセットを用いて,提案手法の優れた一般化性能を実証するために実験を行った。
論文 参考訳(メタデータ) (2023-10-09T14:30:06Z) - Low-rank extended Kalman filtering for online learning of neural
networks from streaming data [71.97861600347959]
非定常データストリームから非線形関数のパラメータを推定するための効率的なオンライン近似ベイズ推定アルゴリズムを提案する。
この方法は拡張カルマンフィルタ (EKF) に基づいているが、新しい低ランク+斜角行列分解法を用いている。
変分推論に基づく手法とは対照的に,本手法は完全に決定論的であり,ステップサイズチューニングを必要としない。
論文 参考訳(メタデータ) (2023-05-31T03:48:49Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Cogradient Descent for Dependable Learning [64.02052988844301]
双線形最適化問題に対処するために,CoGDアルゴリズムに基づく信頼度の高い学習法を提案する。
CoGDは、ある変数がスパーシティ制約を持つ場合の双線形問題を解くために導入された。
また、特徴と重みの関連を分解するためにも使用できるため、畳み込みニューラルネットワーク(CNN)をより良く訓練するための我々の手法をさらに一般化することができる。
論文 参考訳(メタデータ) (2021-06-20T04:28:20Z) - Research of Damped Newton Stochastic Gradient Descent Method for Neural
Network Training [6.231508838034926]
勾配降下(SGD)のような一階法は、最近ディープニューラルネットワーク(DNN)を訓練するための一般的な最適化方法です。
本稿では、平均二乗誤差(MSE)の回帰問題とクロスエントロピー損失(CEL)の分類問題に対するDNNの訓練方法として、DN-SGD(Damped Newton Descent)とGGD-DN(Gradient Descent Damped Newton)を提案する。
提案手法はパラメータのごく一部を正確に計算し,計算コストを大幅に削減し,sgdよりも高速かつ高精度な学習プロセスを実現する。
論文 参考訳(メタデータ) (2021-03-31T02:07:18Z) - Two-Level K-FAC Preconditioning for Deep Learning [7.699428789159717]
ディープラーニングの文脈では、グラディエントDescentの収束を加速するために、多くの最適化手法が勾配共分散情報を使用する。
特に、アダグラード(Adagrad)から始まり、一見無限に現れる研究のラインは、いわゆる経験的フィッシャー行列の対角近似の使用を提唱している。
特に成功した方法はK-FAC(Kronecker-ed block-factored preconditioner)と呼ばれる方法である。
論文 参考訳(メタデータ) (2020-11-01T17:54:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。