Fugu-MT 論文翻訳(概要): LaMDA: Large Model Fine-Tuning via Spectrally Decomposed Low-Dimensional Adaptation

論文の概要: LaMDA: Large Model Fine-Tuning via Spectrally Decomposed Low-Dimensional Adaptation

arxiv url: http://arxiv.org/abs/2406.12832v1
Date: Tue, 18 Jun 2024 17:52:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-19 17:39:34.870510
Title: LaMDA: Large Model Fine-Tuning via Spectrally Decomposed Low-Dimensional Adaptation
Title（参考訳）: LaMDA:分光分解低次元適応による大型モデル微調整
Authors: Seyedarmin Azizi, Souvik Kundu, Massoud Pedram,
Abstract要約: 低ランク適応(LoRA)は、ファインチューン大言語モデル(LLM)のデフォルトのアプローチとなっている。我々はスペクトル分解低次元適応(LaMDA)による大型モデル微調整を導入する。 LaMDAはトレーニング可能なパラメータとピークGPUメモリフットプリントを大幅に削減する。
参考スコア（独自算出の注目度）: 7.788139145984213
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Low-rank adaptation (LoRA) has become the default approach to fine-tune large language models (LLMs) due to its significant reduction in trainable parameters. However, trainable parameter demand for LoRA increases with increasing model embedding dimensions, leading to high compute costs. Additionally, its backward updates require storing high-dimensional intermediate activations and optimizer states, demanding high peak GPU memory. In this paper, we introduce large model fine-tuning via spectrally decomposed low-dimensional adaptation (LaMDA), a novel approach to fine-tuning large language models, which leverages low-dimensional adaptation to achieve significant reductions in trainable parameters and peak GPU memory footprint. LaMDA freezes a first projection matrix (PMA) in the adaptation path while introducing a low-dimensional trainable square matrix, resulting in substantial reductions in trainable parameters and peak GPU memory usage. LaMDA gradually freezes a second projection matrix (PMB) during the early fine-tuning stages, reducing the compute cost associated with weight updates to enhance parameter efficiency further. We also present an enhancement, LaMDA++, incorporating a ``lite-weight" adaptive rank allocation for the LoRA path via normalized spectrum analysis of pre-trained model weights. We evaluate LaMDA/LaMDA++ across various tasks, including natural language understanding with the GLUE benchmark, text summarization, natural language generation, and complex reasoning on different LLMs. Results show that LaMDA matches or surpasses the performance of existing alternatives while requiring up to 17.7x fewer parameter updates and up to 1.32x lower peak GPU memory usage during fine-tuning. Code will be publicly available.
Abstract（参考訳）: 低ランク適応 (LoRA) は、訓練可能なパラメータの大幅な削減により、ファインチューン大言語モデル (LLM) に対するデフォルトのアプローチとなっている。しかし、モデル埋め込み次元の増大に伴い、LoRAのトレーニング可能なパラメータ要求が増加し、高い計算コストがもたらされる。さらに、後方更新には高次元の中間アクティベーションとオプティマイザ状態の保存が必要で、高いピークGPUメモリが要求される。本稿では、スペクトル分解型低次元適応(LaMDA)による大規模モデル微調整について紹介する。これは、低次元適応を利用してトレーニング可能なパラメータとピークGPUメモリフットプリントの大幅な削減を実現する、大規模言語モデルに対する新しいアプローチである。 LaMDAは、低次元のトレーニング可能な2乗行列を導入しながら、適応経路で第1のプロジェクション行列(PMA)を凍結し、トレーニング可能なパラメータとピークGPUメモリ使用量を大幅に削減する。 LaMDAは、初期微調整段階で徐々に第2のプロジェクションマトリックス(PMB)を凍結し、重み更新に伴う計算コストを削減し、パラメータ効率をさらに高める。また,事前学習したモデル重みの正規化スペクトル解析により,LoRA経路の「ライトウェイト」適応ランクアロケーションを組み込んだLaMDA++も提案する。 GLUEベンチマークによる自然言語理解,テキスト要約,自然言語生成,LLMの複雑な推論など,さまざまなタスクを対象としたLaMDA/LaMDA++の評価を行った。その結果、LaMDAは17.7倍のパラメータ更新と1.32倍のピークGPUメモリ使用率を必要とする一方で、既存の代替品のパフォーマンスと一致または上回っていることがわかった。コードは公開されます。

関連論文リスト

MSPLoRA: A Multi-Scale Pyramid Low-Rank Adaptation for Efficient Model Fine-Tuning [5.412348391086257]
我々は,グローバル共有ロラ,ミッドレベル共有ロラ,レイヤ特化ロラを導入して,グローバルパターン,中間レベル特徴,きめ細かい情報をキャプチャするMPPLoRAを提案する。様々なNLPタスクの実験により、MPPLoRAはトレーニング可能なパラメータの数を著しく減らしながら、より効率的な適応とより良い性能を実現することが示された。
論文参考訳（メタデータ） (2025-03-27T07:01:50Z)
Sparse Gradient Compression for Fine-Tuning Large Language Models [58.44973963468691]
ダウンストリームタスクのための微調整された大型言語モデル(LLM)は、広く利用されていることと、オープンソースモデルの利用が増加しているために、ますます重要になっている。微調整に伴う高メモリコストは、特にモデルのサイズが大きくなるにつれて大きな課題である。これらの制約に対処するためにスパース圧縮勾配(SGC)を提案する。
論文参考訳（メタデータ） (2025-02-01T04:18:28Z)
OP-LoRA: The Blessing of Dimensionality [93.08208871549557]
低ランクアダプタは、少数のパラメータしか持たない大型モデルの微調整を可能にする。しばしば最適化の課題を提起するが、収束性は低い。推論コストを増大させることなく、トレーニングを加速する過剰パラメータ化アプローチを導入する。視覚言語タスクの改善、特に画像生成の顕著な向上を実現している。
論文参考訳（メタデータ） (2024-12-13T18:55:19Z)
LoLDU: Low-Rank Adaptation via Lower-Diag-Upper Decomposition for Parameter-Efficient Fine-Tuning [4.616740762629019]
Low-Rank Adaptation (LoRA) は、大規模な更新パラメータをフル微調整で処理する問題に対処しようと試みている。トレーニング可能なパラメータを2600倍に削減する,PEFT(Suboptimal-Efficient Fine-Tuning)アプローチであるLoLDUを提案する。
論文参考訳（メタデータ） (2024-10-17T14:51:17Z)
Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。 Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文参考訳（メタデータ） (2024-10-11T17:01:43Z)
LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、下流タスクのための大規模な事前学習モデルに効果的に適応する、PEFT (Efficient Fine Tuning) 手法として人気がある。モデル更新に低階テンソルパラメトリゼーションを用いる新しい手法を提案する。提案手法は,大規模言語モデルの微調整に有効であり,比較性能を維持しつつ,パラメータ数の大幅な削減を実現している。
論文参考訳（メタデータ） (2024-10-05T06:59:50Z)
Enabling Efficient On-Device Fine-Tuning of LLMs Using Only Inference Engines [17.539008562641303]
大規模言語モデル(LLM)は現在、大規模なクラウドサーバ上で事前トレーニングされ、微調整されている。次のフロンティアはLLMパーソナライズであり、ファンデーションモデルをユーザ/タスク固有のデータで微調整することができる。リソース制約のあるエッジデバイスの微調整は、かなりのメモリと計算要求のために大きな課題となる。
論文参考訳（メタデータ） (2024-09-23T20:14:09Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
Sparse Matrix in Large Language Model Fine-tuning [1.9874264019909988]
本稿では,PEFTとフル微調整性能の差を最小限に抑えるために,スパースサブ行列を選択する手法を提案する。実験では,本手法が他のPEFTベースラインを一貫して上回ることを示した。また,訓練可能なパラメータの数が増加するにつれて,LoRAとDoRAの性能が低下する傾向を示す。
論文参考訳（メタデータ） (2024-05-24T13:12:14Z)
Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文参考訳（メタデータ） (2024-01-29T18:43:49Z)
Hyperparameter Optimization for Large Language Model Instruction-Tuning [6.743825167463901]
トレーニング済みLLMをブラックボックスとして微調整と検証を行うパイプライン全体について検討する。本研究では,提案アルゴリズムを用いて高次パラメータの空間を効率的に探索し,チューニングモデルの性能向上と人為的アライメントを実現する。
論文参考訳（メタデータ） (2023-12-01T22:03:12Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning [143.23123791557245]
下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。我々は,AdaLoRAの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルを用いた広範囲な実験を行った。
論文参考訳（メタデータ） (2023-03-18T22:36:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。