論文の概要: Cuttlefish: Low-Rank Model Training without All the Tuning
- arxiv url: http://arxiv.org/abs/2305.02538v2
- Date: Fri, 5 May 2023 16:18:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-08 10:32:40.430554
- Title: Cuttlefish: Low-Rank Model Training without All the Tuning
- Title(参考訳): Cuttlefish: チューニング不要の低ランクモデルトレーニング
- Authors: Hongyi Wang, Saurabh Agarwal, Pongsakorn U-chupala, Yoshiki Tanaka,
Eric P. Xing, Dimitris Papailiopoulos
- Abstract要約: 自動低ランクトレーニングアプローチであるCuttlefishを紹介します。
カトルフィッシュは、すべての階層の安定したランクが収束すると、フルランクからローランクのトレーニングに切り替える。
以上の結果から,Cuttlefishはフルランクモデルの最大5.6倍のモデルを生成し,エンドツーエンドのトレーニングプロセスの最大1.2倍の高速化を実現している。
- 参考スコア(独自算出の注目度): 55.984294012024755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research has shown that training low-rank neural networks can
effectively reduce the total number of trainable parameters without sacrificing
predictive accuracy, resulting in end-to-end speedups. However, low-rank model
training necessitates adjusting several additional factorization
hyperparameters, such as the rank of the factorization at each layer. In this
paper, we tackle this challenge by introducing Cuttlefish, an automated
low-rank training approach that eliminates the need for tuning factorization
hyperparameters. Cuttlefish leverages the observation that after a few epochs
of full-rank training, the stable rank (i.e., an approximation of the true
rank) of each layer stabilizes at a constant value. Cuttlefish switches from
full-rank to low-rank training once the stable ranks of all layers have
converged, setting the dimension of each factorization to its corresponding
stable rank. Our results show that Cuttlefish generates models up to 5.6 times
smaller than full-rank models, and attains up to a 1.2 times faster end-to-end
training process while preserving comparable accuracy. Moreover, Cuttlefish
outperforms state-of-the-art low-rank model training methods and other
prominent baselines. The source code for our implementation can be found at:
https://github.com/hwang595/Cuttlefish.
- Abstract(参考訳): 近年の研究では、低ランクニューラルネットワークのトレーニングにより、予測精度を犠牲にすることなく、トレーニング可能なパラメータの総数を効果的に削減できることが示されている。
しかし、低ランクモデルトレーニングでは、各層における因子化のランクなど、いくつかの追加の因子化ハイパーパラメータを調整する必要がある。
本稿では,因子化ハイパーパラメータのチューニングを不要にする低ランク自動トレーニング手法であるcuttlefishを導入することで,この課題に挑戦する。
カトルフィッシュは、フルランクトレーニングのいくつかのエポックの後、各層の安定なランク(すなわち、真のランクの近似)が一定値で安定化するという観察を利用する。
クトルフィッシュは全ての層の安定なランクが収束すると、フルランクからローランクのトレーニングに切り替え、それぞれの因子分解の次元を対応する安定なランクに設定する。
この結果から,Cuttlefishはフルランクモデルよりも最大5.6倍のモデルを生成し,最大1.2倍高速なエンドツーエンドトレーニングプロセスを実現するとともに,同等の精度を維持した。
さらに、クトルフィッシュは最先端の低ランクモデルのトレーニング方法や他の顕著なベースラインよりも優れています。
私たちの実装のソースコードは、https://github.com/hwang595/Cuttlefish.com/。
関連論文リスト
- AdaRankGrad: Adaptive Gradient-Rank and Moments for Memory-Efficient LLMs Training and Fine-Tuning [9.51289606759621]
大規模言語モデル(LLM)の訓練と微調整には、メモリと計算要求に関する課題が伴う。
低ランク適応(LoRA)など、これらの課題に対処する様々な技術が開発されている。
トレーニングが進むにつれて、推定勾配のランクが徐々に低下する現象に着想を得た新しい手法を導入する。
論文 参考訳(メタデータ) (2024-10-23T13:53:26Z) - Full-Rank No More: Low-Rank Weight Training for Modern Speech Recognition Models [46.87216968390808]
本稿では,大規模コンフォーマーに基づく音声認識モデルにおける低ランクウェイトトレーニングの未探索領域をスクラッチから検討する。
注目モジュールのみに低ランク構造を適用すると、予期せぬパフォーマンスが向上する。
フィードフォワード層は、適度な50%のランク低下でパフォーマンス劣化を示すようになり、大きな課題を呈する。
論文 参考訳(メタデータ) (2024-10-10T09:58:35Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Training Acceleration of Low-Rank Decomposed Networks using Sequential
Freezing and Rank Quantization [5.914653351242832]
そこで本研究では,分解に少数のランクを使用することなく,低階分解モデルを高速化する2つの手法を提案する。
これらの手法には、ランク最適化とシーケンシャルな層凍結が含まれる。
実験によると、これらの手法は、トレーニング中に60%まで、組み合わせると推論時に37%まで、モデルのスループットを向上させることができる。
論文 参考訳(メタデータ) (2023-09-07T16:33:42Z) - InRank: Incremental Low-Rank Learning [85.6380047359139]
勾配に基づくトレーニングは、トレーニング中のランクの段階的な増加を通じて、ニューラルネットワークを低ランクのソリューションに向けて暗黙的に正規化する。
既存のトレーニングアルゴリズムでは、計算効率を向上させるために、ローランクな特性を活用できない。
InRank(Incremental Low-Rank Learning)は,低ランク行列として累積重み更新を明示的に表現する学習アルゴリズムである。
論文 参考訳(メタデータ) (2023-06-20T03:03:04Z) - Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - Robust Implicit Networks via Non-Euclidean Contractions [63.91638306025768]
暗黙のニューラルネットワークは、精度の向上とメモリ消費の大幅な削減を示す。
彼らは不利な姿勢と収束の不安定さに悩まされる。
本論文は,ニューラルネットワークを高機能かつ頑健に設計するための新しい枠組みを提供する。
論文 参考訳(メタデータ) (2021-06-06T18:05:02Z) - Pufferfish: Communication-efficient Models At No Extra Cost [7.408148824204065]
Pufferfishはコミュニケーションと効率的な分散トレーニングフレームワークです。
低ランクで事前リファクタリングされたディープネットワークをトレーニングすることで、勾配圧縮をモデルトレーニングプロセスに組み込む。
最先端の市販の深層モデルと同じ精度を実現している。
論文 参考訳(メタデータ) (2021-03-05T20:46:39Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。