論文の概要: Exploring Efficient Learning of Small BERT Networks with LoRA and DoRA
- arxiv url: http://arxiv.org/abs/2508.17586v1
- Date: Mon, 25 Aug 2025 01:14:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.59601
- Title: Exploring Efficient Learning of Small BERT Networks with LoRA and DoRA
- Title(参考訳): LoRAとDoRAを用いた小型BERTネットワークの効率的な学習
- Authors: Daniel Frees, Aditri Bhagirath, Moritz Bolling,
- Abstract要約: Low-Rank Adaptation (LoRA) と Weight-Decomposed Low-Rank Adaptation (DoRA) は、微調整の計算問題に対する高効率で高性能な解法である。
より小規模な言語モデルに適用した場合に,LoRA と DoRA の効率と性能をベンチマークすることで,オリジナルの LoRA と DoRA の論文を拡張したいと考えている。
この結果から,LoRAとDoRAの最適設定と自動混合精度(AMP)が相まって,性能を損なうことなくトレーニング効率を著しく向上することがわかった。
- 参考スコア(独自算出の注目度): 1.492929866765164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models (LLMs) have revolutionized artificial intelligence, fine-tuning LLMs is extraordinarily computationally expensive, preventing smaller businesses and research teams with limited GPU resources from engaging with new research. Hu et al and Liu et al introduce Low-Rank Adaptation (LoRA) and Weight-Decomposed Low-Rank Adaptation (DoRA) as highly efficient and performant solutions to the computational challenges of LLM fine-tuning, demonstrating huge speedups and memory usage savings for models such as GPT-3 and RoBERTa. We seek to expand upon the original LoRA and DoRA papers by benchmarking efficiency and performance of LoRA and DoRA when applied to a much smaller scale of language model: our case study here is the compact minBERT model. Our findings reveal that optimal custom configurations of LoRA and DoRA, coupled with Automatic Mixed Precision (AMP), significantly enhance training efficiency without compromising performance. Furthermore, while the parameterization of minBERT is significantly smaller than GPT-3, our results validate the observation that gradient updates to language models are inherently low-rank even in small model space, observing that rank 1 decompositions yield negligible performance deficits. Furthermore, aided by our highly efficient minBERT implementation, we investigate numerous architectures, custom loss functions, and hyperparameters to ultimately train an optimal ensembled multitask minBERT model to simultaneously perform sentiment analysis, paraphrase detection, and similarity scoring.
- Abstract(参考訳): 大規模言語モデル(LLM)は人工知能に革命をもたらしたが、微調整のLLMは計算コストが極端に高く、GPUリソースが限られている小規模企業や研究チームが新しい研究に参加するのを妨げている。
Hu et al and Liu et al introduced Low-Rank Adaptation (LoRA) and Weight-Decomposed Low-Rank Adaptation (DoRA) as high efficient and performanceant solutions of LLM fine-tuning, demonstrate huge speedups and memory usage saves for model for GPT-3 and RoBERTa。
より小規模な言語モデルに適用した場合,LoRA と DoRA の効率と性能をベンチマークすることで,オリジナルの LoRA と DoRA の論文を拡張したいと考えている。
この結果から,LoRAとDoRAの最適設定と自動混合精度(AMP)が相まって,性能を損なうことなくトレーニング効率を著しく向上することがわかった。
さらに, minBERT のパラメータ化は GPT-3 よりもかなり小さいが, 言語モデルへの勾配更新は, 小モデル空間においても本質的に低ランクであり, 階数 1 の分解が無視できる性能欠陥を生じさせることを示した。
さらに,高効率な minBERT 実装により,多数のアーキテクチャ,カスタム損失関数,ハイパーパラメータを探索し,最終的に最適アンサンブルマルチタスク minBERT モデルをトレーニングし,感情分析,パラフレーズ検出,類似度スコアリングを同時に行う。
関連論文リスト
- LoRA Is Slower Than You Think [0.0]
Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)において最も広く使われている技術の一つである。
少数のトレーニング可能な低ランク重量行列を導入することで、LoRAは更新される必要のあるパラメータの数を大幅に削減する。
LoRAは、すべてのモデルアーキテクチャやトレーニング設定に対して、一貫してスピード改善を提供していません。
論文 参考訳(メタデータ) (2025-07-06T08:36:43Z) - SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning [73.93639228235622]
基礎モデルによる継続的な学習は、シーケンシャルなタスクに取り組むための事前トレーニング中に得られた豊富な知識を活用するための有望なパラダイムとして現れてきた。
既存のプロンプトベースおよびローランク適応ベース(LoRAベース)メソッドでは、プロンプト/ローラプールの拡張や、以前のタスクのサンプルの保持がしばしば必要である。
クラスインクリメンタル学習のためのスケーラブルデカップリングLoRA(SD-LoRA)を提案する。
論文 参考訳(メタデータ) (2025-01-22T20:00:41Z) - LoRA vs Full Fine-tuning: An Illusion of Equivalence [76.11938177294178]
我々は,Low-Rank Adaptation (LoRA) とフルファインタニングによる事前学習モデルについて検討する。
特異値分解が全く異なる構造を示すLoRAおよび完全微調整収量行列が得られた。
我々は、LoRAが完全な微調整を忘れてはならないという発見を拡張し、その忘れ物は侵入者次元に大きく局所化されていることを発見した。
論文 参考訳(メタデータ) (2024-10-28T17:14:01Z) - Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。
Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。
本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:07:13Z) - ShareLoRA: Parameter Efficient and Robust Large Language Model Fine-tuning via Shared Low-Rank Adaptation [4.07532985236519]
textbfShared textbfRank textbfAdaptation (ShareLoRA)を導入する。
ShareLoRAは、性能を損なうことなく、パラメータ効率、適応性、堅牢性をバランスさせる。
ゼロショット、少数ショット、連続的な微調整シナリオにおいて、一貫してLoRAを上回っている。
論文 参考訳(メタデータ) (2024-06-16T02:52:28Z) - LISA: Layerwise Importance Sampling for Memory-Efficient Large Language Model Fine-Tuning [31.088229461632206]
大規模言語モデル(LLM)は大規模トレーニングにおいて重要な障害となっている。
ローランド適応(LoRA)はこの問題を軽減するために提案されている。
微調整作業におけるLoRAの層状特性について検討し、予期せぬが一貫した重みノルムの歪さを観察する。
私たちはLayerwise Importance Sampled AdamW (LISA)と名付けた。
論文 参考訳(メタデータ) (2024-03-26T17:55:02Z) - MELoRA: Mini-Ensemble Low-Rank Adapters for Parameter-Efficient Fine-Tuning [71.50432879573614]
低ランク適応 (LoRA) は、適応過程が本質的に低次元であるという考えに基づいている。
我々は、より高階を維持しながらトレーニング可能なパラメータを少なくするミニアンサンブルな低ランクアダプタMELoRAを提案する。
実験結果から, 自然言語理解タスクの8倍のトレーニングパラメータ, 続くタスクの36倍のトレーニングパラメータが得られた。
論文 参考訳(メタデータ) (2024-02-27T07:14:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。