論文の概要: projUNN: efficient method for training deep networks with unitary
matrices
- arxiv url: http://arxiv.org/abs/2203.05483v1
- Date: Thu, 10 Mar 2022 17:04:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-11 14:43:10.680084
- Title: projUNN: efficient method for training deep networks with unitary
matrices
- Title(参考訳): projUNN: ユニタリ行列を用いたディープネットワークの効率的なトレーニング方法
- Authors: Bobak Kiani, Randall Balestriero, Yann Lecun, Seth Lloyd
- Abstract要約: トレーニング実行時のスケーリングを$O(kN2)$とすることで、フル$N$次元のユニタリあるいは行列をパラメータ化できる方法の2つの変種を導入する。
最も高速な設定であっても、ProjUNNはモデルのユニタリパラメータをトレーニングして、ベースライン実装に対して同等のパフォーマンスに達することができる。
- 参考スコア(独自算出の注目度): 21.11571804661279
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In learning with recurrent or very deep feed-forward networks, employing
unitary matrices in each layer can be very effective at maintaining long-range
stability. However, restricting network parameters to be unitary typically
comes at the cost of expensive parameterizations or increased training runtime.
We propose instead an efficient method based on rank-$k$ updates -- or their
rank-$k$ approximation -- that maintains performance at a nearly optimal
training runtime. We introduce two variants of this method, named Direct
(projUNN-D) and Tangent (projUNN-T) projected Unitary Neural Networks, that can
parameterize full $N$-dimensional unitary or orthogonal matrices with a
training runtime scaling as $O(kN^2)$. Our method either projects low-rank
gradients onto the closest unitary matrix (projUNN-T) or transports unitary
matrices in the direction of the low-rank gradient (projUNN-D). Even in the
fastest setting ($k=1$), projUNN is able to train a model's unitary parameters
to reach comparable performances against baseline implementations. By
integrating our projUNN algorithm into both recurrent and convolutional neural
networks, our models can closely match or exceed benchmarked results from
state-of-the-art algorithms.
- Abstract(参考訳): 繰り返しまたは非常に深いフィードフォワードネットワークで学習する場合、各層に一元行列を用いることは、長距離安定性を維持するのに非常に効果的である。
しかし、ネットワークパラメータをユニタリに制限することは、通常、高価なパラメータ化やトレーニングランタイムの増加のコストがかかる。
代わりに、ほぼ最適なトレーニングランタイムでパフォーマンスを維持する、ランク-$k$ 更新 -- またはランク-$k$近似 -- に基づく効率的なメソッドを提案します。
本手法の2つの変種である Direct (projUNN-D) と Tangent (projUNN-T) は、フル$N$次元のユニタリ行列や直交行列を$O(kN^2)$としてパラメータ化することができる。
本手法は, 最寄りのユニタリ行列 (projUNN-T) に低ランク勾配を投影するか, 低ランク勾配 (projUNN-D) の方向にユニタリ行列を輸送する。
最速設定(k=1$)であっても、projunnはモデルのユニタリパラメータをトレーニングして、ベースライン実装と同等のパフォーマンスに達することができる。
ProjUNNアルゴリズムをリカレントニューラルネットワークと畳み込みニューラルネットワークの両方に統合することで、我々のモデルは最先端のアルゴリズムのベンチマーク結果と密に一致または超えることができる。
関連論文リスト
- Training Artificial Neural Networks by Coordinate Search Algorithm [0.20971479389679332]
本稿では、ニューラルネットワークのトレーニングのための勾配自由座標探索(CS)アルゴリズムの効率的なバージョンを提案する。
提案アルゴリズムは、微分不可能なアクティベーション関数で使用することができ、多目的/マルチロス問題に適合する。
ANNの重みに対する最適値を求めることは、大規模な最適化問題である。
論文 参考訳(メタデータ) (2024-02-20T01:47:25Z) - A Mini-Block Natural Gradient Method for Deep Neural Networks [12.48022619079224]
我々は、近似自然勾配法、ミニブロックフィッシャー(MBF)の収束性を提案し、解析する。
提案手法では,一般化の並列性を利用して,各層内の多数の行列を効率的に処理する。
論文 参考訳(メタデータ) (2022-02-08T20:01:48Z) - Algorithms for Efficiently Learning Low-Rank Neural Networks [12.916132936159713]
低ランクニューラルネットワークの学習アルゴリズムについて検討する。
単層ReLUネットワークに最適な低ランク近似を学習するアルゴリズムを提案する。
低ランク$textitdeep$ネットワークをトレーニングするための新しい低ランクフレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-02T01:08:29Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - Can we learn gradients by Hamiltonian Neural Networks? [68.8204255655161]
本稿では,勾配を学習するODEニューラルネットワークに基づくメタラーナを提案する。
提案手法は,LLUアクティベーションを最適化したMLMとMNISTデータセットにおいて,LSTMに基づくメタラーナーよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-10-31T18:35:10Z) - SHINE: SHaring the INverse Estimate from the forward pass for bi-level
optimization and implicit models [15.541264326378366]
近年,深層ニューラルネットワークの深度を高める手法として暗黙の深度学習が登場している。
トレーニングは双レベル問題として実行され、その計算複雑性は巨大なヤコビ行列の反復反転によって部分的に駆動される。
本稿では,この計算ボトルネックに対処する新たな手法を提案する。
論文 参考訳(メタデータ) (2021-06-01T15:07:34Z) - Exploiting Adam-like Optimization Algorithms to Improve the Performance
of Convolutional Neural Networks [82.61182037130405]
勾配降下(SGD)は深いネットワークを訓練するための主要なアプローチです。
本研究では,現在と過去の勾配の違いに基づいて,Adamに基づく変分を比較する。
resnet50を勾配降下訓練したネットワークのアンサンブルと融合実験を行った。
論文 参考訳(メタデータ) (2021-03-26T18:55:08Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Learning Low-rank Deep Neural Networks via Singular Vector Orthogonality
Regularization and Singular Value Sparsification [53.50708351813565]
各ステップにSVDを適用することなく、トレーニング中に低ランクDNNを明示的に達成する最初の方法であるSVDトレーニングを提案する。
SVDトレーニングがDNN層のランクを著しく低減し,同じ精度で計算負荷の低減を実現することを実証的に示す。
論文 参考訳(メタデータ) (2020-04-20T02:40:43Z) - Stochastic Flows and Geometric Optimization on the Orthogonal Group [52.50121190744979]
直交群 $O(d)$ 上の幾何駆動最適化アルゴリズムの新しいクラスを示す。
提案手法は,深層,畳み込み,反復的なニューラルネットワーク,強化学習,フロー,メトリック学習など,機械学習のさまざまな分野に適用可能であることを示す。
論文 参考訳(メタデータ) (2020-03-30T15:37:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。