論文の概要: Kronecker-Factored Approximate Curvature for Modern Neural Network
Architectures
- arxiv url: http://arxiv.org/abs/2311.00636v2
- Date: Thu, 11 Jan 2024 17:32:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-13 03:22:33.000063
- Title: Kronecker-Factored Approximate Curvature for Modern Neural Network
Architectures
- Title(参考訳): 現代ニューラルネットワークアーキテクチャのためのクロネッカー係数近似曲率
- Authors: Runa Eschenhagen, Alexander Immer, Richard E. Turner, Frank Schneider,
Philipp Hennig
- Abstract要約: 線形重み付け層の2つの異なる設定がクロネッカー型近似曲率(K-FAC)の2つの風味を動機付けている
重み付けをそれぞれ設定したディープ・リニア・ネットワークに対して正確であることを示す。
グラフニューラルネットワークと視覚変換器の両方をトレーニングするために、これらの2つのK-FACの違いをほとんど観測しない。
- 参考スコア(独自算出の注目度): 85.76673783330334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The core components of many modern neural network architectures, such as
transformers, convolutional, or graph neural networks, can be expressed as
linear layers with $\textit{weight-sharing}$. Kronecker-Factored Approximate
Curvature (K-FAC), a second-order optimisation method, has shown promise to
speed up neural network training and thereby reduce computational costs.
However, there is currently no framework to apply it to generic architectures,
specifically ones with linear weight-sharing layers. In this work, we identify
two different settings of linear weight-sharing layers which motivate two
flavours of K-FAC -- $\textit{expand}$ and $\textit{reduce}$. We show that they
are exact for deep linear networks with weight-sharing in their respective
setting. Notably, K-FAC-reduce is generally faster than K-FAC-expand, which we
leverage to speed up automatic hyperparameter selection via optimising the
marginal likelihood for a Wide ResNet. Finally, we observe little difference
between these two K-FAC variations when using them to train both a graph neural
network and a vision transformer. However, both variations are able to reach a
fixed validation metric target in $50$-$75\%$ of the number of steps of a
first-order reference run, which translates into a comparable improvement in
wall-clock time. This highlights the potential of applying K-FAC to modern
neural network architectures.
- Abstract(参考訳): トランスフォーマー、畳み込み、グラフニューラルネットワークなど、現代の多くのニューラルネットワークアーキテクチャのコアコンポーネントは、$\textit{weight-sharing}$で線形レイヤとして表現することができる。
2階最適化手法であるKronecker-Factored Approximate Curvature (K-FAC)は、ニューラルネットワークトレーニングの高速化と計算コストの削減を約束している。
しかし、現在、一般的なアーキテクチャ、特に線形重み共有層を持つアーキテクチャに適用するフレームワークは存在しない。
本研究では, k-fac -- $\textit{expand}$ と $\textit{reduce}$ の2つのフレーバーを動機付ける線形重み共有層の2つの異なる設定を同定する。
重みを共有できるディープリニアネットワークについて,その構成が正確であることを示す。
特に、K-FAC-reduceは一般的にK-FAC-expandよりも高速であり、Wide ResNetの限界確率を最適化することで自動ハイパーパラメータ選択を高速化する。
最後に,グラフニューラルネットワークと視覚トランスフォーマーの両方を訓練する場合,これら2つのk-fac変動の差異をほとんど観察しない。
しかし、どちらのバリエーションも1次参照実行のステップ数に対して50ドルから75ドル%の価格で固定されたバリデーションメトリックターゲットに到達することができ、これはウォールクロック時間に匹敵する改善となる。
これは、現代のニューラルネットワークアーキテクチャにK-FACを適用する可能性を強調している。
関連論文リスト
- Principled Architecture-aware Scaling of Hyperparameters [69.98414153320894]
高品質のディープニューラルネットワークをトレーニングするには、非自明で高価なプロセスである適切なハイパーパラメータを選択する必要がある。
本研究では,ネットワークアーキテクチャにおける初期化と最大学習率の依存性を正確に評価する。
ネットワークランキングは、ベンチマークのトレーニングネットワークにより容易に変更可能であることを実証する。
論文 参考訳(メタデータ) (2024-02-27T11:52:49Z) - Linear Neural Network Layers Promote Learning Single- and Multiple-Index
Models [9.984696742463628]
我々のフレームワークは、すべて同じキャパシティを持つが、暗黙的に定義された表現コストを持つ、様々な深さのネットワーク群を考察する。
この結果から,ReLUネットワークに線形層を追加することで,低ランク線形演算子で近似可能な関数を求める表現コストが得られることがわかった。
論文 参考訳(メタデータ) (2023-05-24T22:10:12Z) - Combinatorial optimization for low bit-width neural networks [23.466606660363016]
低ビット幅のニューラルネットワークは、計算資源を減らすためにエッジデバイスに展開するために広く研究されている。
既存のアプローチでは、2段階の列車・圧縮設定における勾配に基づく最適化に焦点が当てられている。
グリーディ座標降下法とこの新しい手法を組み合わせることで、二項分類タスクにおける競合精度が得られることを示す。
論文 参考訳(メタデータ) (2022-06-04T15:02:36Z) - Instant Neural Graphics Primitives with a Multiresolution Hash Encoding [67.33850633281803]
品質を犠牲にすることなく、より小さなネットワークを使用できる汎用的な新しい入力符号化を提案する。
小さなニューラルネットワークは、勾配降下によって値が最適化された訓練可能な特徴ベクトルの多分解能ハッシュテーブルによって拡張される。
数桁の高速化を実現し、高品質なニューラルネットワークプリミティブを数秒でトレーニングすることができる。
論文 参考訳(メタデータ) (2022-01-16T07:22:47Z) - Scalable Lipschitz Residual Networks with Convex Potential Flows [120.27516256281359]
残差ネットワーク勾配流における凸ポテンシャルを用いることで,1ドルのLipschitz変換が組み込まれていることを示す。
CIFAR-10の包括的な実験は、アーキテクチャのスケーラビリティと、証明可能な防御に$ell$のアプローチの利点を実証している。
論文 参考訳(メタデータ) (2021-10-25T07:12:53Z) - Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch [75.69506249886622]
ディープニューラルネットワーク(DNN)におけるスパーシティは、資源制約された環境でモデルを圧縮し、加速するために広く研究されている。
本稿では,N:M細粒構造スパースネットワークのスクラッチからトレーニングを初めて行う。
論文 参考訳(メタデータ) (2021-02-08T05:55:47Z) - HALO: Learning to Prune Neural Networks with Shrinkage [5.283963846188862]
ディープニューラルネットワークは、構造化されていないデータから豊富な特徴セットを抽出することにより、さまざまなタスクで最先端のパフォーマンスを実現する。
提案手法は,(1)ネットワークプルーニング,(2)スパシティ誘導ペナルティによるトレーニング,(3)ネットワークの重みと連動してバイナリマスクをトレーニングすることである。
トレーニング可能なパラメータを用いて、与えられたネットワークの重みを適応的に分散化することを学ぶ階層適応ラッソ(Hierarchical Adaptive Lasso)という新しいペナルティを提案する。
論文 参考訳(メタデータ) (2020-08-24T04:08:48Z) - Sparse Linear Networks with a Fixed Butterfly Structure: Theory and
Practice [4.3400407844814985]
本稿では,バタフライネットワークに基づくアーキテクチャにより,ニューラルネットワーク内の密度線形層を置き換えることを提案する。
NLPデータと視覚データの両方の教師付き予測を含む実験のコレクションでは、これは単に既存のよく知られたアーキテクチャにマッチする結果をもたらすだけでなく、時には優れた結果をもたらすことを示す。
論文 参考訳(メタデータ) (2020-07-17T09:45:03Z) - Convolutional Neural Network Training with Distributed K-FAC [14.2773046188145]
Kronecker-factored Approximate Curvature (K-FAC)はFisher Information Matrixの近似として最近提案されている。
本稿では、大規模畳み込みニューラルネットワーク(CNN)トレーニングにおけるスケーラブルなK-FAC設計とその適用性について検討する。
論文 参考訳(メタデータ) (2020-07-01T22:00:53Z) - Network Adjustment: Channel Search Guided by FLOPs Utilization Ratio [101.84651388520584]
本稿では,ネットワークの精度をFLOPの関数として考慮した,ネットワーク調整という新しいフレームワークを提案する。
標準画像分類データセットと幅広いベースネットワークの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2020-04-06T15:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。