Fugu-MT 論文翻訳(概要): Kronecker-Factored Approximate Curvature for Modern Neural Network Architectures

論文の概要: Kronecker-Factored Approximate Curvature for Modern Neural Network Architectures

arxiv url: http://arxiv.org/abs/2311.00636v2
Date: Thu, 11 Jan 2024 17:32:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-13 03:22:33.000063
Title: Kronecker-Factored Approximate Curvature for Modern Neural Network Architectures
Title（参考訳）: 現代ニューラルネットワークアーキテクチャのためのクロネッカー係数近似曲率
Authors: Runa Eschenhagen, Alexander Immer, Richard E. Turner, Frank Schneider, Philipp Hennig
Abstract要約: 線形重み付け層の2つの異なる設定がクロネッカー型近似曲率(K-FAC)の2つの風味を動機付けている重み付けをそれぞれ設定したディープ・リニア・ネットワークに対して正確であることを示す。グラフニューラルネットワークと視覚変換器の両方をトレーニングするために、これらの2つのK-FACの違いをほとんど観測しない。
参考スコア（独自算出の注目度）: 85.76673783330334
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The core components of many modern neural network architectures, such as transformers, convolutional, or graph neural networks, can be expressed as linear layers with $\textit{weight-sharing}$. Kronecker-Factored Approximate Curvature (K-FAC), a second-order optimisation method, has shown promise to speed up neural network training and thereby reduce computational costs. However, there is currently no framework to apply it to generic architectures, specifically ones with linear weight-sharing layers. In this work, we identify two different settings of linear weight-sharing layers which motivate two flavours of K-FAC -- $\textit{expand}$ and $\textit{reduce}$. We show that they are exact for deep linear networks with weight-sharing in their respective setting. Notably, K-FAC-reduce is generally faster than K-FAC-expand, which we leverage to speed up automatic hyperparameter selection via optimising the marginal likelihood for a Wide ResNet. Finally, we observe little difference between these two K-FAC variations when using them to train both a graph neural network and a vision transformer. However, both variations are able to reach a fixed validation metric target in $50$-$75\%$ of the number of steps of a first-order reference run, which translates into a comparable improvement in wall-clock time. This highlights the potential of applying K-FAC to modern neural network architectures.
Abstract（参考訳）: トランスフォーマー、畳み込み、グラフニューラルネットワークなど、現代の多くのニューラルネットワークアーキテクチャのコアコンポーネントは、$\textit{weight-sharing}$で線形レイヤとして表現することができる。 2階最適化手法であるKronecker-Factored Approximate Curvature (K-FAC)は、ニューラルネットワークトレーニングの高速化と計算コストの削減を約束している。しかし、現在、一般的なアーキテクチャ、特に線形重み共有層を持つアーキテクチャに適用するフレームワークは存在しない。本研究では, k-fac -- $\textit{expand}$ と $\textit{reduce}$ の2つのフレーバーを動機付ける線形重み共有層の2つの異なる設定を同定する。重みを共有できるディープリニアネットワークについて,その構成が正確であることを示す。特に、K-FAC-reduceは一般的にK-FAC-expandよりも高速であり、Wide ResNetの限界確率を最適化することで自動ハイパーパラメータ選択を高速化する。最後に,グラフニューラルネットワークと視覚トランスフォーマーの両方を訓練する場合,これら2つのk-fac変動の差異をほとんど観察しない。しかし、どちらのバリエーションも1次参照実行のステップ数に対して50ドルから75ドル%の価格で固定されたバリデーションメトリックターゲットに到達することができ、これはウォールクロック時間に匹敵する改善となる。これは、現代のニューラルネットワークアーキテクチャにK-FACを適用する可能性を強調している。

関連論文リスト

LipKernel: Lipschitz-Bounded Convolutional Neural Networks via Dissipative Layers [0.0468732641979009]
本稿では,畳み込みニューラルネットワーク(CNN)の階層的パラメータ化を提案する。提案手法は,2次元ロエサー型状態空間モデルを用いて,散逸型畳み込みカーネルを直接パラメータ化する。提案手法を用いた実行時間は,最先端のリプシッツ有界ネットワークよりも桁違いに高速であることを示す。
論文参考訳（メタデータ） (2024-10-29T17:20:14Z)
Tiled Bit Networks: Sub-Bit Neural Network Compression Through Reuse of Learnable Binary Vectors [4.95475852994362]
本稿では,バイナリ重み付きニューラルネットワークのサブビット圧縮を実現するために,ビット列を持つタイル型ニューラルネットワーク層に対する新しい量子化方式を提案する。私たちは完全に接続された層と畳み込み層の両方にアプローチを採用しています。
論文参考訳（メタデータ） (2024-07-16T15:55:38Z)
Kronecker-Factored Approximate Curvature for Physics-Informed Neural Networks [3.7308074617637588]
PINN損失に対するKronecker-factored almost curvature (KFAC)を提案する。我々のKFACベースの勾配は、小さな問題に対する高価な2階法と競合し、高次元のニューラルネットワークやPDEに好適にスケールし、一階法やLBFGSを一貫して上回ります。
論文参考訳（メタデータ） (2024-05-24T14:36:02Z)
Principled Architecture-aware Scaling of Hyperparameters [69.98414153320894]
高品質のディープニューラルネットワークをトレーニングするには、非自明で高価なプロセスである適切なハイパーパラメータを選択する必要がある。本研究では,ネットワークアーキテクチャにおける初期化と最大学習率の依存性を正確に評価する。ネットワークランキングは、ベンチマークのトレーニングネットワークにより容易に変更可能であることを実証する。
論文参考訳（メタデータ） (2024-02-27T11:52:49Z)
ReLU Neural Networks with Linear Layers are Biased Towards Single- and Multi-Index Models [9.96121040675476]
この原稿は、2層以上の深さのニューラルネットワークによって学習された関数の性質が予測にどのように影響するかを考察している。我々のフレームワークは、すべて同じキャパシティを持つが表現コストが異なる、様々な深さのネットワーク群を考慮に入れている。
論文参考訳（メタデータ） (2023-05-24T22:10:12Z)
Combinatorial optimization for low bit-width neural networks [23.466606660363016]
低ビット幅のニューラルネットワークは、計算資源を減らすためにエッジデバイスに展開するために広く研究されている。既存のアプローチでは、2段階の列車・圧縮設定における勾配に基づく最適化に焦点が当てられている。グリーディ座標降下法とこの新しい手法を組み合わせることで、二項分類タスクにおける競合精度が得られることを示す。
論文参考訳（メタデータ） (2022-06-04T15:02:36Z)
Instant Neural Graphics Primitives with a Multiresolution Hash Encoding [67.33850633281803]
品質を犠牲にすることなく、より小さなネットワークを使用できる汎用的な新しい入力符号化を提案する。小さなニューラルネットワークは、勾配降下によって値が最適化された訓練可能な特徴ベクトルの多分解能ハッシュテーブルによって拡張される。数桁の高速化を実現し、高品質なニューラルネットワークプリミティブを数秒でトレーニングすることができる。
論文参考訳（メタデータ） (2022-01-16T07:22:47Z)
Scalable Lipschitz Residual Networks with Convex Potential Flows [120.27516256281359]
残差ネットワーク勾配流における凸ポテンシャルを用いることで,1ドルのLipschitz変換が組み込まれていることを示す。 CIFAR-10の包括的な実験は、アーキテクチャのスケーラビリティと、証明可能な防御に$ell$のアプローチの利点を実証している。
論文参考訳（メタデータ） (2021-10-25T07:12:53Z)
Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch [75.69506249886622]
ディープニューラルネットワーク(DNN)におけるスパーシティは、資源制約された環境でモデルを圧縮し、加速するために広く研究されている。本稿では,N:M細粒構造スパースネットワークのスクラッチからトレーニングを初めて行う。
論文参考訳（メタデータ） (2021-02-08T05:55:47Z)
Convolutional Neural Network Training with Distributed K-FAC [14.2773046188145]
Kronecker-factored Approximate Curvature (K-FAC)はFisher Information Matrixの近似として最近提案されている。本稿では、大規模畳み込みニューラルネットワーク(CNN)トレーニングにおけるスケーラブルなK-FAC設計とその適用性について検討する。
論文参考訳（メタデータ） (2020-07-01T22:00:53Z)
Network Adjustment: Channel Search Guided by FLOPs Utilization Ratio [101.84651388520584]
本稿では,ネットワークの精度をFLOPの関数として考慮した,ネットワーク調整という新しいフレームワークを提案する。標準画像分類データセットと幅広いベースネットワークの実験は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2020-04-06T15:51:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。