論文の概要: R-LoRA: Random Initialization of Multi-Head LoRA for Multi-Task Learning
- arxiv url: http://arxiv.org/abs/2502.15455v1
- Date: Fri, 21 Feb 2025 13:30:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 16:10:42.510621
- Title: R-LoRA: Random Initialization of Multi-Head LoRA for Multi-Task Learning
- Title(参考訳): R-LoRA:マルチタスク学習のためのマルチヘッドLoRAのランダム初期化
- Authors: Jinda Liu, Yi Chang, Yuan Wu,
- Abstract要約: ローランク適応 (LoRA) はパラメータ効率の高い微調整法として最も一般的なものの一つである。
マルチヘッドランダム化を取り入れたR-LoRAを提案する。
実験により、R-LoRAはタスク固有の知識を捉えるのに優れていることが示された。
- 参考スコア(独自算出の注目度): 12.431575579432458
- License:
- Abstract: Fine-tuning large language models (LLMs) is prohibitively expensive in terms of computational and memory costs. Low-rank Adaptation (LoRA), as one of the most popular parameter-efficient fine-tuning (PEFT) methods, offers a cost-effective alternative by approximating the model changes $\Delta W \in \mathbb{R}^{m \times n}$ through the product of down-projection matrix $A \in \mathbb{R}^{m \times r}$ and head matrix $B \in \mathbb{R}^{r \times n}$, where $r \ll \min(m, n)$. In real-world scenarios, LLMs are fine-tuned on data from multiple domains to perform tasks across various fields, embodying multi-task learning (MTL). LoRA often underperforms in such complex scenarios. To enhance LoRA's capability in multi-task learning, we propose R-LoRA, which incorporates Multi-Head Randomization. Multi-Head Randomization diversifies the head matrices through Multi-Head Random Initialization and Multi-Head Dropout, enabling more efficient learning of task-specific features while maintaining shared knowledge representation. Extensive experiments demonstrate that R-LoRA is better at capturing task-specific knowledge, thereby improving performance in multi-task scenarios. The code is available at https://github.com/jinda-liu/R-LoRA.
- Abstract(参考訳): 微調整の大型言語モデル(LLM)は計算コストとメモリコストの面では不当に高価である。
Low-rank Adaptation (LoRA) は、最も一般的なパラメータ効率のよい微調整(PEFT)手法の1つであるが、モデルの変更を近似することでコスト効率の良い代替手段を提供する。
実世界のシナリオでは、LLMはマルチタスク学習(MTL)を具現化して、複数のドメインのデータに基づいて、さまざまな分野にわたるタスクを実行する。
LoRAはこのような複雑なシナリオでは性能が劣ることが多い。
マルチタスク学習におけるLoRAの能力を高めるために,マルチヘッドランダム化を取り入れたR-LoRAを提案する。
マルチヘッドランダム化は、マルチヘッドランダム初期化とマルチヘッドドロップアウトによって頭部行列を多様化し、共有知識表現を維持しながらタスク固有の特徴をより効率的に学習することができる。
大規模な実験により、R-LoRAはタスク固有の知識を捕捉し、マルチタスクシナリオのパフォーマンスを向上させることができる。
コードはhttps://github.com/jinda-liu/R-LoRAで公開されている。
関連論文リスト
- In-Context Meta LoRA Generation [61.690065588534296]
Low-rank Adaptation (LoRA) はタスク固有の微調整機能を示す。
In-Context Meta LoRA (ICM-LoRA) は,大規模言語モデルのタスク固有のカスタマイズを効率的に行う新しい手法である。
ICM-LoRAは、現在のパラメータ再構成法よりも正確なLoRAパラメータ再構成を可能にする。
論文 参考訳(メタデータ) (2025-01-29T13:12:01Z) - Each Rank Could be an Expert: Single-Ranked Mixture of Experts LoRA for Multi-Task Learning [53.98941571078398]
Low-Rank Adaptation (LoRA)は、その効率性とモジュール性から、大きな言語モデル(LLM)を特定のドメインに適用するために広く使われている。
最近の研究は、各LoRAモジュールを専門家として扱い、複数の特殊なLoRAモジュールによるタスク干渉を軽減することで、Mixture of Experts (MoE)を採用している。
効果はあるものの、これらの手法は個々のタスク内の知識を分離することが多く、関連するタスク間で共有された知識を完全に活用することができない。
各ランクをテキスト処理することでMoEをLoRAに埋め込むシングルランク専門家LoRA(textbfSMoRA)を提案する。
論文 参考訳(メタデータ) (2025-01-25T06:56:39Z) - MTL-LoRA: Low-Rank Adaptation for Multi-Task Learning [74.43869839954168]
マルチタスク学習能力を大幅に向上させながら、低ランク適応の利点を保ちながら、MTL-LoRAを提案する。
MTL-LoRAは、タスク固有の情報を識別するタスク適応パラメータを追加することでLoRAを強化する。
このアプローチにより、汎用コーパス上で事前訓練された大規模言語モデル(LLM)が、限られた数のトレーニング可能なパラメータで異なるターゲットタスクドメインに適応できる。
論文 参考訳(メタデータ) (2024-10-12T08:32:26Z) - LASeR: Learning to Adaptively Select Reward Models with Multi-Armed Bandits [56.93583799109029]
本稿では,複数のリワードモデル(RM)を用いてLLMを反復的に学習するLASeRを紹介する。
以上の結果から,複数のRMを最適化することにより,LASeRの繰り返しLLM最適化を向上できることが示唆された。
また、LASeRを用いて緩和可能な複数のRMからの相反する選好の存在を検証する。
論文 参考訳(メタデータ) (2024-10-02T16:46:38Z) - CoRA: Optimizing Low-Rank Adaptation with Common Subspace of Large Language Models [7.108651381160281]
Low-Rank Adaptation (LoRA) 戦略は、微調整された大型モデルにおける効率と性能のバランスをとる。
我々は、共有知識を活用してLoRAトレーニングを最適化するtextbfCoRAを提案する。
実験の結果,最初のアプローチは,パラメータの半減よりも効率が良く,元のLoRAファインチューニングと同じ効果が得られることがわかった。
論文 参考訳(メタデータ) (2024-08-31T12:48:27Z) - Multimodal Instruction Tuning with Conditional Mixture of LoRA [51.58020580970644]
本稿では,Low-Rank Adaption (LoRA) とマルチモーダル命令チューニングを統合した新しい手法を提案する。
各入力インスタンスのユニークな要求に合わせた低ランク適応行列を動的に構築することで、LoRAを革新する。
様々なマルチモーダル評価データセットの実験結果から、MixLoRAは従来のLoRAを同等以上のランクで上回るだけでなく、性能も向上していることが示された。
論文 参考訳(メタデータ) (2024-02-24T20:15:31Z) - LoRA-Flow: Dynamic LoRA Fusion for Large Language Models in Generative
Tasks [72.88244322513039]
LoRAは、ダウンストリームタスクやドメイン毎に大きな言語モデル(LLM)をカスタマイズするために軽量モジュールを使用している。
動的重みを利用して異なるLoRAの影響を調整するLoRA-Flowを提案する。
6つの生成タスクに対する実験により、我々の手法はタスクレベルの融合重みでベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2024-02-18T04:41:25Z) - Chain of LoRA: Efficient Fine-tuning of Language Models via Residual
Learning [31.036465632204663]
本稿では,Frank-Wolfeアルゴリズムにインスパイアされた反復最適化フレームワークであるLoRAのChainを紹介する。
計算コストやメモリコストを増大させることなく,COLA が LoRA を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-01-08T14:26:49Z) - MultiLoRA: Democratizing LoRA for Better Multi-Task Learning [20.750808913757396]
LoRAは、特定のタスクにLLMを適用する際に、顕著なリソース効率と同等のパフォーマンスを達成する。
LoRAは少数のトップ特異ベクトルに支配され、微調整はより重要でないユニタリ変換の集合に分解される。
我々は,LoRAで観測されるトップ特異ベクトルの優位性を低減し,マルチタスク適応性を向上するMultiLoRAを提案する。
論文 参考訳(メタデータ) (2023-11-20T02:59:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。