論文の概要: InRank: Incremental Low-Rank Learning
- arxiv url: http://arxiv.org/abs/2306.11250v2
- Date: Mon, 1 Jan 2024 03:43:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 02:24:16.573156
- Title: InRank: Incremental Low-Rank Learning
- Title(参考訳): InRank: インクリメンタルな低ランク学習
- Authors: Jiawei Zhao, Yifei Zhang, Beidi Chen, Florian Sch\"afer, Anima
Anandkumar
- Abstract要約: 勾配に基づくトレーニングは、トレーニング中のランクの段階的な増加を通じて、ニューラルネットワークを低ランクのソリューションに向けて暗黙的に正規化する。
既存のトレーニングアルゴリズムでは、計算効率を向上させるために、ローランクな特性を活用できない。
InRank(Incremental Low-Rank Learning)は,低ランク行列として累積重み更新を明示的に表現する学習アルゴリズムである。
- 参考スコア(独自算出の注目度): 85.6380047359139
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The theory of greedy low-rank learning (GLRL) aims to explain the impressive
generalization capabilities of deep learning. It proves that stochastic
gradient-based training implicitly regularizes neural networks towards low-rank
solutions through a gradual increase of the rank during training. However,
there is a gap between theory and practice since GLRL requires an infinitesimal
initialization of the weights, which is not practical due to the fact that it
is a saddle point. In this work, we remove the assumption of infinitesimal
initialization by focusing on cumulative weight updates. We prove the
cumulative weight updates follow an incremental low-rank trajectory for
arbitrary orthogonal initialization of weights in a three-layer linear network.
Empirically, we demonstrate that our theory holds on a broad range of neural
networks (e.g., transformers) and standard training algorithms (e.g., SGD,
Adam). However, existing training algorithms do not exploit the low-rank
property to improve computational efficiency as the networks are not
parameterized in low-rank. To remedy this, we design a new training algorithm
Incremental Low-Rank Learning (InRank), which explicitly expresses cumulative
weight updates as low-rank matrices while incrementally augmenting their ranks
during training. We evaluate InRank on GPT-2, and our results indicate that
InRank achieves comparable prediction performance as the full-rank counterpart
while requiring at most 33% of the total ranks throughout training. We also
propose an efficient version of InRank that achieves a reduction of 37% in
total training time and 36% in model size when training GPT-medium on
WikiText-103 from scratch.
- Abstract(参考訳): グレディ低ランク学習(GLRL)の理論は、ディープラーニングの印象的な一般化能力を説明することを目的としている。
確率的勾配に基づくトレーニングは、トレーニング中のランクの段階的な増加を通じて、ニューラルネットワークを低ランクソリューションへと暗黙的に規則化する。
しかし、GLRLは重みの無限小初期化を必要とするため、理論と実践の間にはギャップがある。
本研究では,累積重み更新に着目して無限小初期化の仮定を除去する。
累積重み更新は3層線形ネットワークにおける重みの任意の直交初期化のためのインクリメンタル低ランク軌跡に続く。
経験的に、我々の理論は幅広いニューラルネットワーク(例えば、トランスフォーマー)と標準トレーニングアルゴリズム(例えば、SGD、Adam)で成り立っていることを実証する。
しかし、既存のトレーニングアルゴリズムは、ネットワークが低ランクでパラメータ化されていないため、計算効率を改善するために低ランク特性を利用しない。
これを改善するために、我々は、トレーニング中のランクを漸進的に増加させながら、低ランク行列として累積重量更新を明示的に表現する新しいトレーニングアルゴリズムInRank(Incrmental Low-Rank Learning)を設計する。
InRank を GPT-2 上で評価した結果,InRank は全学級の33% を要し,全学級に匹敵する予測性能を達成できることが示唆された。
また,WikiText-103 上で GPT-medium をスクラッチからトレーニングする場合,トレーニング時間を 37% 削減し,モデルサイズを 36% 削減する,効率的な InRank 版を提案する。
関連論文リスト
- MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
Adam、Adam、およびそれらの変種のような大規模な勾配アルゴリズムは、この種のトレーニングの開発の中心となっている。
本稿では,事前条件付き勾配最適化手法と,スケールドモーメント手法による分散低減を両立させる枠組みを提案する。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - Exact, Tractable Gauss-Newton Optimization in Deep Reversible Architectures Reveal Poor Generalization [52.16435732772263]
多くのアプリケーションにおいて、ディープニューラルネットワークのトレーニングを加速する2階最適化が示されている。
しかし、二階法の一般化特性についてはいまだ議論が続いている。
我々は、Gauss-Newton (GN) の正確な更新が、ディープアーキテクチャのクラスにおいて、牽引可能な形式を取ることを初めて示す。
論文 参考訳(メタデータ) (2024-11-12T17:58:40Z) - No Train No Gain: Revisiting Efficient Training Algorithms For
Transformer-based Language Models [31.080446886440757]
本稿では、動的アーキテクチャ(レイヤの積み重ね、ドロップ)、バッチ選択(選択的バックプロップ、ROH損失)、効率的なレイヤ(Lion, Sophia)の3つのカテゴリを再検討する。
トレーニング,検証,ダウンストリームのゲインが,完全に遅延した学習率のベースラインに比べて消失していることが分かりました。
我々は、全ての計算時間を参照システム時間と呼ぶ参照マシンにマッピングすることで、任意の計算でマシンを実行できる評価プロトコルを定義した。
論文 参考訳(メタデータ) (2023-07-12T20:10:14Z) - A Framework for Provably Stable and Consistent Training of Deep
Feedforward Networks [4.21061712600981]
本稿では、教師付き(分類と回帰)および教師なし(強化学習)シナリオにおいて、ディープニューラルネットワークを訓練するための新しいアルゴリズムを提案する。
このアルゴリズムは、標準降下勾配と勾配クリッピング法を組み合わせたものである。
理論的および実験を通して、我々のアルゴリズム更新はばらつきが低く、トレーニング損失はスムーズな方法で減少することを示す。
論文 参考訳(メタデータ) (2023-05-20T07:18:06Z) - Are Straight-Through gradients and Soft-Thresholding all you need for
Sparse Training? [21.889275006087875]
ニューラルネットワークのトレーニング時に重みをゼロにすることは、推論時の計算複雑性を低減するのに役立つ。
トレーニング中に急激な重量不連続を生じさせることなく,ネットワーク内の空間密度比を徐々に高めるために,ソフトスレッディングとストレートスルー勾配推定を組み合わせる。
提案手法は,ストレートスルー/ソフトスレッショルド/スパーストレーニングのためのST-3と命名され,精度/スパース性および精度/FLOPSトレードオフの両面からSoA結果を得る。
論文 参考訳(メタデータ) (2022-12-02T10:32:44Z) - Low-rank lottery tickets: finding efficient low-rank neural networks via
matrix differential equations [2.3488056916440856]
効率的なローランクワークを見つけるための新しいアルゴリズムを提案する。
これらの作業は、トレーニングフェーズですでに決定され、適応されています。
本手法は,所望の近似精度を達成するために,訓練中のランクを自動的に動的に適応させる。
論文 参考訳(メタデータ) (2022-05-26T18:18:12Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z) - Weight Update Skipping: Reducing Training Time for Artificial Neural
Networks [0.30458514384586394]
本稿では,時間的変動を示す精度向上の観察を生かしたANNのための新しいトレーニング手法を提案する。
このような時間窓の間、ネットワークがまだトレーニングされていることを保証し、過度な適合を避けるバイアスを更新し続けます。
このようなトレーニングアプローチは、計算コストを大幅に削減して、ほぼ同じ精度を達成し、トレーニング時間を短縮する。
論文 参考訳(メタデータ) (2020-12-05T15:12:10Z) - TRP: Trained Rank Pruning for Efficient Deep Neural Networks [69.06699632822514]
低位近似とトレーニングを交互に行うTrated Rank Pruning (TRP)を提案する。
サブ段階降下により最適化された核正則化を利用して、TRPの低位化をさらに促進する。
TRPトレーニングネットワークは本質的に低ランク構造であり、無視可能な性能損失と近似される。
論文 参考訳(メタデータ) (2020-04-30T03:37:36Z) - Learning Low-rank Deep Neural Networks via Singular Vector Orthogonality
Regularization and Singular Value Sparsification [53.50708351813565]
各ステップにSVDを適用することなく、トレーニング中に低ランクDNNを明示的に達成する最初の方法であるSVDトレーニングを提案する。
SVDトレーニングがDNN層のランクを著しく低減し,同じ精度で計算負荷の低減を実現することを実証的に示す。
論文 参考訳(メタデータ) (2020-04-20T02:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。