論文の概要: Bone: Block Affine Transformation as Parameter Efficient Fine-tuning Methods for Large Language Models
- arxiv url: http://arxiv.org/abs/2409.15371v3
- Date: Wed, 02 Oct 2024 07:38:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-03 12:41:36.312566
- Title: Bone: Block Affine Transformation as Parameter Efficient Fine-tuning Methods for Large Language Models
- Title(参考訳): 大規模言語モデルのためのパラメータ効率的な微調整法としてのボーンブロックアフィン変換
- Authors: Jiale Kang,
- Abstract要約: Low-Rank Adaptation (LoRA)は、オリジナルの重量を凍結し、低ランクの行列のみを訓練することで、優れたトレーニング結果を得た。
LoRA は LoRA+, PISSA, Olora, LoRA-GA などの派生型が登場した。
本稿では,トレーニング中にトレーニング可能な行列を元のウェイトを通して継続的に誘導し,ウェイト情報の利用を高めることを目的とした,新しい理論「ウェイトガイド」を紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Low-Rank Adaptation (LoRA) has achieved remarkable training results by freezing the original weights and training only low-rank matrices, establishing itself as the predominant fine-tuning method for LLMs. In pursuit of performance closer to full-parameter training, a series of LoRA variants have emerged, such as LoRA+, PISSA, Olora, and LoRA-GA. However, these improvements complicate the initial setup of model training and increase initialization time. More importantly, they overlook the internal interactions of the original weight information. To address these issues, we introduce a novel theory, ``Weight Guide'' aimed at continuously guiding trainable matrices through the original weights during training to enhance the utilization of weight information. Based on this theory, we designed a new PEFT technique called Bone (\textbf{B}l\textbf{o}ck Affi\textbf{ne}), which not only enhances the utilization of original weight information but also emphasizes the internal connections between weights, leading to faster convergence and better data fitting. Experimental comparisons across two different LLM architectures (LLaMA2, RWKV6) and various parameter scales demonstrate that the Bone structure can achieve rapid convergence and superior data fitting without the need for complex initialization. For example, when fine-tuning LLaMA2-7B on the MetaMathQA dataset and validating on GSM8k and math benchmarks, Bone achieved fine-tuning scores of 49.36 and 8.8, respectively, outperforming PISSA by 5.84\% and 1.96\%.
- Abstract(参考訳): Low-Rank Adaptation (LoRA) は、オリジナルの重量を凍結し、低ランク行列のみを訓練することで、優れたトレーニング結果を得た。
フルパラメータトレーニングに近いパフォーマンスを追求するために、LoRA+、PISSA、Oora、LoRA-GAといった一連のLoRA派生型が登場した。
しかし、これらの改善はモデルトレーニングの初期設定を複雑にし、初期化時間を増加させる。
さらに重要なのは、それらは元の重み情報の内部的な相互作用を見落としていることだ。
これらの課題に対処するために、トレーニング中にトレーニング可能な行列を元のウェイトを通して継続的に誘導し、ウェイト情報の利用を高めることを目的とした「ウェイトガイド」という新しい理論を導入する。
この理論に基づいて,Borth (\textbf{B}l\textbf{o}ck Affi\textbf{ne}) と呼ばれる新しいPEFT手法を設計した。
2つの異なるLLMアーキテクチャ (LLaMA2, RWKV6) と様々なパラメータスケールの比較により、骨構造が複雑な初期化を必要とせず、迅速に収束し、優れたデータフィッティングを実現できることを示した。
例えば、MetaMathQAデータセット上でLLaMA2-7Bを微調整し、GSM8kと数学ベンチマークで検証すると、ボーンはそれぞれ49.36と8.8の微調整スコアを達成し、PISSAの5.84\%と1.96\%を上回った。
関連論文リスト
- SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Optimization-based Structural Pruning for Large Language Models without Back-Propagation [57.9629676017527]
本稿では,Large-Language Models (LLMs) を用いた最適化に基づく構造解析手法を提案する。
本手法は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
提案手法は,A100 GPUの13Bモデルに対して,約35GBのメモリで2.7時間動作する。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - OLoRA: Orthonormal Low-Rank Adaptation of Large Language Models [0.0]
Low-Rank Adaptation (LoRA)はこれらの問題を緩和するための有望な方法として登場した。
OLoRAはLLMトレーニングの収束を著しく加速する。
OLoRAは、様々な言語モデリングタスクで標準のLoRAよりもパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-06-03T20:37:27Z) - VeLoRA: Memory Efficient Training using Rank-1 Sub-Token Projections [35.133698935322634]
大規模言語モデル(LLM)は、最近、多くの言語処理タスクに対処するための強力なツールとして登場した。
勾配勾配勾配を用いた効率的なモデル収束に必要な重要な成分を同定し,特徴付ける。
この結果から, 微調整と事前学習の両方のための, 安価かつメモリ効率のよいアルゴリズムが得られた。
論文 参考訳(メタデータ) (2024-05-28T09:23:14Z) - GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [133.45193150403537]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。
本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。
私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文 参考訳(メタデータ) (2024-03-06T07:29:57Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。
8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-20T20:25:17Z) - Chain of LoRA: Efficient Fine-tuning of Language Models via Residual
Learning [31.036465632204663]
本稿では,Frank-Wolfeアルゴリズムにインスパイアされた反復最適化フレームワークであるLoRAのChainを紹介する。
計算コストやメモリコストを増大させることなく,COLA が LoRA を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-01-08T14:26:49Z) - One-for-All: Generalized LoRA for Parameter-Efficient Fine-tuning [34.109808214968176]
Generalized LoRA (GLoRA) は、汎用パラメータ効率の微調整タスクのための先進的なアプローチである。
一般化されたプロンプトモジュールを使用して、事前訓練されたモデルの重量を最適化し、中間活性化を調整する。
GLoRAは、強力な転送学習、少数ショット学習、ドメイン一般化能力を示す。
論文 参考訳(メタデータ) (2023-06-13T17:59:32Z) - LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。