Fugu-MT 論文翻訳(概要): MiLoRA: Harnessing Minor Singular Components for Parameter-Efficient LLM Finetuning

論文の概要: MiLoRA: Harnessing Minor Singular Components for Parameter-Efficient LLM Finetuning

arxiv url: http://arxiv.org/abs/2406.09044v1
Date: Thu, 13 Jun 2024 12:30:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-14 18:15:03.593621
Title: MiLoRA: Harnessing Minor Singular Components for Parameter-Efficient LLM Finetuning
Title（参考訳）: MiLoRA:パラメータ効率の良いLDMファインタニングのための小さな特異成分のハーネス化
Authors: Hanqing Wang, Zeguan Xiao, Yixia Li, Shuo Wang, Guanhua Chen, Yun Chen,
Abstract要約: 大規模言語モデル(LLM)の効率的な微調整は、計算量とメモリコストを削減してLLMに適応することを目的としている。以前のLoRAベースのアプローチでは、元の重量行列を凍結させながら、ガウス分布とゼロ値を持つ低ランク行列を初期化していた。基本特異成分を凍結したまま、重み行列の小さな特異成分のみを更新する単純なLLM微調整手法であるMiLoRAを提案する。
参考スコア（独自算出の注目度）: 16.32872017587485
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Efficient finetuning of large language models (LLMs) aims to adapt the LLMs with reduced computation and memory cost. Previous LoRA-based approaches initialize the low-rank matrices with gaussian distribution and zero values, while keeping the original weight matrices frozen. However, the trainable model parameters optimized in an unguided subspace might have interference with the well-learned subspace of the pretrained weight matrix. In this paper, we propose MiLoRA, a simple yet effective LLM finetuning approach that only updates the minor singular components of the weight matrix while keeping the principle singular components frozen. It is observed that the minor matrix corresponds to the noisy or long-tail information, while the principle matrix contains important knowledge. The MiLoRA initializes the low-rank matrices within a subspace that is orthogonal to the principle matrix, thus the pretrained knowledge is expected to be well preserved. During finetuning, MiLoRA makes the most use of the less-optimized subspace for learning the finetuning dataset. Extensive experiments on commonsense reasoning, math reasoning and instruction following benchmarks present the superior performance of our method.
Abstract（参考訳）: 大規模言語モデル(LLM)の効率的な微調整は、計算量とメモリコストを削減してLLMに適応することを目的としている。以前のLoRAベースのアプローチでは、元の重量行列を凍結させながら、ガウス分布とゼロ値を持つ低ランク行列を初期化していた。しかし、誘導されていない部分空間に最適化された訓練可能なモデルパラメータは、事前訓練された重み行列の十分に学習された部分空間と干渉する可能性がある。本稿では, 軽量行列の特異成分のみを更新し, 基本特異成分を凍結させつつ, 単純かつ効果的なLCM微調整手法であるMiLoRAを提案する。基本行列は重要な知識を含むのに対し、マイナー行列はノイズ情報またはロングテール情報に対応することが観察された。 MiLoRAは、原理行列に直交する部分空間内の低ランク行列を初期化するので、事前学習された知識は十分に保存される。微調整の間、MiLoRAは微調整データセットを学習するために最適化されていないサブスペースを最大限に活用する。提案手法の優れた性能を示すために,コモンセンス推論,数理推論,およびベンチマークによる指導に関する広範囲な実験を行った。

関連論文リスト

ConsNoTrainLoRA: Data-driven Weight Initialization of Low-rank Adapters using Constraints [64.35580479051208]
以前の作品では、ローランクアダプタ (LoRA) はすべてのアタッチメントポイントに対してランダムに固定されたランクである。本稿では,データ駆動重み初期化法を用いて,LoRAファインチューニングの収束性と最終性能を改善する。
論文参考訳（メタデータ） (2025-07-09T23:52:31Z)
DiffoRA: Enabling Parameter-Efficient LLM Fine-Tuning via Differential Low-Rank Matrix Adaptation [32.369133126167085]
そこで我々は,理論上基礎を成し,モジュールワイドなLoRAを実現する,DiffoRAと呼ばれる新しいPEFT方式を提案する。 DiffoRAの中核には微分適応行列(DAM)があり、どのモジュールが最も適しており、微調整に不可欠かを決定する。提案手法は,様々なベンチマークにおいて,最先端のベースラインに対して最高のモデル精度を実現する。
論文参考訳（メタデータ） (2025-02-13T02:41:34Z)
DoTA: Weight-Decomposed Tensor Adaptation for Large Language Models [33.4538652558253]
低ランク適応(LoRA)は、低ランク行列による更新を近似することにより、微調整された大言語モデル(LLM)の計算とメモリ要求を減らす。本稿では,事前学習した重みの行列積演算子(MPO)分解を利用した重み分解適応(DoTA)を提案する。また、4ビット量子化用に設計されたDoTAの量子化バージョンであるQDoTAを紹介する。
論文参考訳（メタデータ） (2024-12-30T12:00:47Z)
Expanding Sparse Tuning for Low Memory Usage [103.43560327427647]
メモリ使用量が少ないスパースチューニングのためのSNELL(Sparse tuning with kerNelized LoRA)法を提案する。低メモリ使用量を達成するため、SNELLはスカラー化のための調整可能な行列を2つの学習可能な低ランク行列に分解する。コンペティションに基づくスペーシフィケーション機構は、チューナブルウェイトインデックスの保存を避けるためにさらに提案される。
論文参考訳（メタデータ） (2024-11-04T04:58:20Z)
Locating Information in Large Language Models via Random Matrix Theory [0.0]
我々は,事前学習した変換器モデルBERTとLlamaの重量行列を解析した。訓練後に偏差が出現しモデル内の学習された構造が特定できますその結果、微調整後、小さな特異値がモデルの能力に重要な役割を果たすことが明らかとなった。
論文参考訳（メタデータ） (2024-10-23T11:19:08Z)
One Initialization to Rule them All: Fine-tuning via Explained Variance Adaptation [13.585425242072173]
最も一般的に使われている微調整法は、ローランク適応(LoRA)を介してトレーニング済みの重量を更新することである。我々は,活性化のミニバッチ上での特異値分解を計算し,新しい重みをデータ駆動方式で初期化することによりLoRAを強化することを提案する。 EVAを言語生成や理解から画像分類や強化学習まで,さまざまな微調整タスクに適用する。
論文参考訳（メタデータ） (2024-10-09T17:59:06Z)
SVFit: Parameter-Efficient Fine-Tuning of Large Pre-Trained Models Using Singular Values [12.137869917556415]
大規模事前学習モデル(LPM)は、多種多様な自然言語処理やコンピュータビジョンタスクにおいて例外的な性能を示した。これらのモデルを完全に微調整すると、特にリソース制約のある環境では、大きなメモリの問題が発生します。本稿では,臨界特異値をトレーニング可能なパラメータとして用いた低ランク行列に対する特異値分解(SVD)を利用した新しいPEFT手法であるSVFitを提案する。
論文参考訳（メタデータ） (2024-09-09T08:44:53Z)
Memory-Efficient LLM Training with Online Subspace Descent [8.393403749426097]
特異値分解を伴わない新しいサブスペース降下系である Online Subspace Descent を提案する。 Online Subspace Descentは柔軟性があり、トレーニングに最小限のオーバーヘッドしか導入しない。 C4データセット上の60Mから7BパラメータのLLaMAモデルを事前学習するタスクにおいて、オンラインサブスペースDescentは低いパープレキシティと下流タスクのパフォーマンス向上を実現する。
論文参考訳（メタデータ） (2024-08-23T05:54:53Z)
From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients [86.40635601953446]
現代大規模言語モデルの様々な層にまたがる低ランク構造の出現について検討する。 WeLore(Weight Low-Rank Projection)を提案する。
論文参考訳（メタデータ） (2024-07-15T21:05:20Z)
MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning [105.11844150736536]
低ランク適応は、大規模言語モデルのためのパラメータ効率の良い微調整法として人気がある。トレーニング可能なパラメータ数を同じ数に保ちながら、高階更新を実現するために2乗行列を用いるMoRAと呼ばれる新しい手法を提案する。本手法はメモリ集約型タスクではLoRAより優れ,他のタスクでは同等のパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-05-20T15:48:32Z)
Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文参考訳（メタデータ） (2023-12-19T12:34:46Z)
LQ-LoRA: Low-rank Plus Quantized Matrix Decomposition for Efficient Language Model Finetuning [66.85589263870702]
提案手法では,事前学習した行列を高精度の低ランク成分とメモリ効率の量子化成分に分解するために反復アルゴリズムを用いる。微調整されたRoBERTaとLLaMA-2の実験は、我々の低ランク+量子化行列分解法(LQ-LoRA)が強いQLoRAおよびGPTQ-LoRAベースラインより優れていることを示した。
論文参考訳（メタデータ） (2023-11-20T18:57:41Z)
Spectral Entry-wise Matrix Estimation for Low-Rank Reinforcement Learning [53.445068584013896]
低ランク構造を持つ強化学習(RL)における行列推定問題について検討した。低ランク帯では、回収される行列は期待される腕の報酬を指定し、低ランクマルコフ決定プロセス(MDP)では、例えばMDPの遷移カーネルを特徴付ける。簡単なスペクトルベースの行列推定手法は,行列の特異部分空間を効率よく復元し,ほぼ最小の入力誤差を示すことを示す。
論文参考訳（メタデータ） (2023-10-10T17:06:41Z)
Weighted Low Rank Matrix Approximation and Acceleration [0.5177947445379687]
低ランク行列近似は機械学習における中心的な概念の1つである。低ランク行列補完(LRMC)は、いくつかの観測が欠落しているときにLRMA問題を解く。重み付き問題を解くアルゴリズムと2つの加速手法を提案する。
論文参考訳（メタデータ） (2021-09-22T22:03:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。