論文の概要: HLQ: Fast and Efficient Backpropagation via Hadamard Low-rank Quantization
- arxiv url: http://arxiv.org/abs/2406.15102v1
- Date: Fri, 21 Jun 2024 12:41:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 13:42:28.582707
- Title: HLQ: Fast and Efficient Backpropagation via Hadamard Low-rank Quantization
- Title(参考訳): HLQ:アダマール低ランク量子化による高速かつ効率的なバックプロパゲーション
- Authors: Seonggon Kim, Eunhyeok Park,
- Abstract要約: Adamard Low-rank Quantization (HLQ) と呼ばれる新しい最適化戦略を導入する。
HLQは、畳み込み層と線形層のバックプロパゲーションコストの削減に焦点を当てている。
本実験は,スクラッチトレーニングと微調整トレーニングの両方において,HLQの優れた性能を示すものである。
- 参考スコア(独自算出の注目度): 7.604279380164723
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid increase in model size and the growing importance of various fine-tuning applications, lightweight training has become crucial. Since the backward pass is twice as expensive as the forward pass, optimizing backpropagation is particularly important. However, modifications to this process can lead to suboptimal convergence, so training optimization should minimize perturbations, which is a highly challenging task. In this study, we introduce a novel optimization strategy called Hadamard Low-rank Quantization (HLQ), focusing on reducing the cost of backpropagation in convolutional and linear layers. We first analyze the sensitivity of gradient computation with respect to activation and weight, and judiciously design the HLQ pipeline to apply 4-bit Hadamard quantization to the activation gradient and Hadamard low-rank approximation to the weight gradient. This combination was found to be the best for maximizing benefits, and our extensive experiments demonstrate the outstanding performance of HLQ in both training from scratch and fine-tuning, achieving significant memory savings and acceleration on real GPUs with negligible quality degradation.
- Abstract(参考訳): モデルサイズが急速に増加し、様々な微調整アプリケーションの重要性が高まっているため、軽量なトレーニングが重要になっている。
後方通過は前方通過の2倍の費用がかかるため、後方伝播の最適化は特に重要である。
しかし、このプロセスの変更は最適下限収束をもたらす可能性があるため、トレーニング最適化は摂動を最小限に抑えるべきである。
本研究では,畳み込み層および線形層におけるバックプロパゲーションコストの低減に着目し,ハダマール低ランク量子化(HLQ)と呼ばれる新しい最適化手法を提案する。
まず,アクティベーションとウェイトに関する勾配計算の感度を解析し,アクティベーション勾配に4ビットアダマール量子化を適用し,ウェイト勾配にアダマール低ランク近似を適用したHLQパイプラインを任意に設計する。
この組み合わせは利点の最大化に最適であることが判明し、我々の広範な実験は、スクラッチと微調整の両方のトレーニングにおいて、HLQの卓越した性能を実証し、無視できる品質劣化の実際のGPU上でのメモリ節約とアクセラレーションを実現した。
関連論文リスト
- Machine-learning-based multipoint optimization of fluidic injection parameters for improving nozzle performance [2.5864426808687893]
本稿では,計算流体力学(CFD)シミュレーションの代替として,事前学習ニューラルネットワークモデルを用いる。
ノズル流れ場の物理的特性を考慮すると, モデルの伝達性を高めるために, 先行予測手法が採用された。
推力係数1.14%の改善を実現し、従来の最適化手法と比較して時間コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-09-19T12:32:54Z) - Q-GaLore: Quantized GaLore with INT4 Projection and Layer-Adaptive Low-Rank Gradients [86.40635601953446]
量子化と低ランク投影を組み合わせることでメモリ使用量を大幅に削減する新しい手法であるQ-Galoreを導入する。
本稿では,Q-Galoreがメモリ効率に優れた競合性能を実現することを実証する。
論文 参考訳(メタデータ) (2024-07-11T08:42:58Z) - Taming 3DGS: High-Quality Radiance Fields with Limited Resources [50.92437599516609]
3D Gaussian Splatting (3DGS)は、高速で解釈可能で高忠実なレンダリングで新規ビュー合成を変換した。
予算で3DGSモデルをトレーニングし、レンダリングするという課題に取り組みます。
我々は、勾配計算と属性更新のための高速で数値的に等価な解を導出する。
論文 参考訳(メタデータ) (2024-06-21T20:44:23Z) - Memory-Efficient Optimization with Factorized Hamiltonian Descent [11.01832755213396]
本稿では,この課題に対処するためのメモリ効率因子化手法を取り入れた新しい適応型H-Facを提案する。
運動量とスケーリングパラメータ推定器の両方にランク1パラメータ化を適用することで、H-Facはメモリコストをサブ線形レベルに削減する。
我々はハミルトン力学から導かれる原理に基づいてアルゴリズムを開発し、最適化力学と収束保証において堅牢な理論的基盤を提供する。
論文 参考訳(メタデータ) (2024-06-14T12:05:17Z) - Towards Memory- and Time-Efficient Backpropagation for Training Spiking
Neural Networks [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックコンピューティングのためのエネルギー効率の高いモデルである。
本研究では,学習効率を大幅に向上させつつ,高い性能を達成できる空間学習時間(SLTT)法を提案する。
BPTTと比較して, メモリコストとトレーニング時間は, それぞれ70%以上, 50%以上削減されている。
論文 参考訳(メタデータ) (2023-02-28T05:01:01Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - SHINE: SHaring the INverse Estimate from the forward pass for bi-level
optimization and implicit models [15.541264326378366]
近年,深層ニューラルネットワークの深度を高める手法として暗黙の深度学習が登場している。
トレーニングは双レベル問題として実行され、その計算複雑性は巨大なヤコビ行列の反復反転によって部分的に駆動される。
本稿では,この計算ボトルネックに対処する新たな手法を提案する。
論文 参考訳(メタデータ) (2021-06-01T15:07:34Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。