論文の概要: PreLoRA: Hybrid Pre-training of Vision Transformers with Full Training and Low-Rank Adapters
- arxiv url: http://arxiv.org/abs/2509.21619v1
- Date: Thu, 25 Sep 2025 21:34:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.033625
- Title: PreLoRA: Hybrid Pre-training of Vision Transformers with Full Training and Low-Rank Adapters
- Title(参考訳): PreLoRA: フルトレーニングと低ランクアダプタを備えたビジョントランスのハイブリッドプレトレーニング
- Authors: Krishu K Thapa, Reet Barik, Krishna Teja Chitty-Venkata, Murali Emani, Venkatram Vishwanath,
- Abstract要約: 本稿では, 部分収束状態の同定と, ViT-Large モデル上での完全パラメータトレーニングからローランド適応 (LoRA) への切り替えを提案する。
実験結果から,本手法はモデルの精度を保ちながら,トレーニング可能なパラメータの数を元のサイズの10%に減らしていることがわかった。
- 参考スコア(独自算出の注目度): 2.5547655072779
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training large models ranging from millions to billions of parameters is highly resource-intensive, requiring significant time, compute, and memory. It is observed that most of the learning (higher change in weights) takes place in the earlier stage of the training loop. These changes stabilize as training continues, enabling them to be captured by matrices of a low intrinsic rank. Therefore, we propose an approach to identify such states of partial convergence and dynamically switch from full parameter training to Low-Rank Adaptation (LoRA) on the ViT-Large model. We introduce a flexible approach that leverages user-defined hyperparameters to determine the switching point and assign a rank specific to each module layer based on its level of convergence. Experimental results show that this approach preserves model accuracy while reducing the number of trainable parameters to 10% of its original size, resulting in a 3x improvement in throughput, and a 1.5x reduction in average training time per epoch while also reducing GPU memory consumption by 20%
- Abstract(参考訳): 数百万から数十億のパラメータを含む大規模なモデルのトレーニングは非常にリソース集約的であり、かなりの時間、計算、メモリを必要とする。
多くの学習(重みの変化)がトレーニングループの初期段階で行われることが観察された。
これらの変化はトレーニングが進むにつれて安定し、低い内在階級の行列によって捕獲される。
そこで本研究では, 部分収束状態の同定と, フルパラメータトレーニングから ViT-Large モデル上でのローランド適応 (LoRA) へ動的に切り替えるアプローチを提案する。
ユーザ定義のハイパーパラメータを利用してスイッチングポイントを決定するフレキシブルなアプローチを導入し、その収束レベルに基づいて各モジュール層固有のランクを割り当てる。
実験の結果,トレーニング可能なパラメータの数を10%に削減しながらモデルの精度を保ち,スループットが3倍向上し,エポックあたりの平均トレーニング時間を1.5倍削減し,GPUメモリ使用量を20%削減した。
関連論文リスト
- AdaRankGrad: Adaptive Gradient-Rank and Moments for Memory-Efficient LLMs Training and Fine-Tuning [9.51289606759621]
大規模言語モデル(LLM)の訓練と微調整には、メモリと計算要求に関する課題が伴う。
低ランク適応(LoRA)など、これらの課題に対処する様々な技術が開発されている。
トレーニングが進むにつれて、推定勾配のランクが徐々に低下する現象に着想を得た新しい手法を導入する。
論文 参考訳(メタデータ) (2024-10-23T13:53:26Z) - SwitchLoRA: Switched Low-Rank Adaptation Can Learn Full-Rank Information [3.6859322366469933]
ReLoRAやGaLoreのような手法は、低ランクのサブスペースを更新することでこの問題に対処しようとしている。
本稿では,LoRAのトレーニング可能なパラメータを代替パラメータに頻繁にスムーズに置き換える,パラメータ効率のトレーニング手法であるSwitchLoRAを紹介する。
論文 参考訳(メタデータ) (2024-06-03T05:40:34Z) - Sparse Spectral Training and Inference on Euclidean and Hyperbolic Neural Networks [9.96381061452642]
Low-Rank Adaptation (LoRA) と ReLoRA は低ランク構造で課題に直面している。
予備学習におけるメモリ使用量の最適化を目的としたスパーススペクトルトレーニング(SST)を提案する。
SSTは、他の低ランクメソッドとフルランクトレーニングの間の難易度ギャップを97.4%削減する。
論文 参考訳(メタデータ) (2024-05-24T11:59:41Z) - GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [133.45193150403537]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。
本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。
私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文 参考訳(メタデータ) (2024-03-06T07:29:57Z) - Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。
凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文 参考訳(メタデータ) (2024-02-05T10:55:47Z) - Dynamic Layer Tying for Parameter-Efficient Transformers [65.268245109828]
トレーニング中にレイヤを選択し、それらを結びつけるために強化学習を採用しています。
これにより、重量共有が容易になり、トレーニング可能なパラメータの数を減らし、効果的な正規化技術としても機能する。
特に、トレーニング中のメモリ消費は、従来のトレーニング方法よりも1桁も少ない。
論文 参考訳(メタデータ) (2024-01-23T14:53:20Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。