論文の概要: Activated LoRA: Fine-tuned LLMs for Intrinsics
- arxiv url: http://arxiv.org/abs/2504.12397v1
- Date: Wed, 16 Apr 2025 18:03:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:38:29.704957
- Title: Activated LoRA: Fine-tuned LLMs for Intrinsics
- Title(参考訳): 活性化LORA:イントリンシクス用微調整LDM
- Authors: Kristjan Greenewald, Luis Lastras, Thomas Parnell, Vraj Shah, Lucian Popa, Giulio Zizzo, Chulaka Gunasekara, Ambrish Rawat, David Cox,
- Abstract要約: Low-Rank Adaptation (LoRA) は、大規模基盤モデルの重みを微調整するための高効率なフレームワークとして登場した。
本稿では,アクティベートされたLoRA(aLoRA)を提案する。
この変更により、aLoRAは入力文字列のベースモデルのKVキャッシュを受け入れることができる。
- 参考スコア(独自算出の注目度): 9.503174205896533
- License:
- Abstract: Low-Rank Adaptation (LoRA) has emerged as a highly efficient framework for finetuning the weights of large foundation models, and has become the go-to method for data-driven customization of LLMs. Despite the promise of highly customized behaviors and capabilities, switching between relevant LoRAs in a multiturn setting is highly inefficient, as the key-value (KV) cache of the entire turn history must be recomputed with the LoRA weights before generation can begin. To address this problem, we propose Activated LoRA (aLoRA), which modifies the LoRA framework to only adapt weights for the tokens in the sequence \emph{after} the aLoRA is invoked. This change crucially allows aLoRA to accept the base model's KV cache of the input string, meaning that aLoRA can be instantly activated whenever needed in a chain without recomputing the cache. This enables building what we call \emph{intrinsics}, i.e. highly specialized models invoked to perform well-defined operations on portions of an input chain or conversation that otherwise uses the base model by default. We use aLoRA to train a set of intrinsics models, demonstrating competitive accuracy with standard LoRA while achieving significant inference benefits.
- Abstract(参考訳): Low-Rank Adaptation (LoRA)は、大規模基盤モデルの重みを微調整するための高効率なフレームワークとして登場し、LLMのデータ駆動のカスタマイズのためのゴーツーメソッドとなっている。
高度にカスタマイズされた振る舞いと能力の約束にもかかわらず、関連するLoRAをマルチターン設定で切り替えることは非常に非効率であり、ターン履歴全体のキー値(KV)キャッシュは、生成が始まる前にLoRA重みで再計算する必要がある。
この問題に対処するため,アクティベートされたLoRA (aLoRA) を提案する。これは,aLoRA が呼び出されるシーケンス \emph{after} のトークンに対してのみ重みを適応するように,LoRA フレームワークを修正したものである。
この変更により、aLoRAは入力文字列のベースモデルのKVキャッシュを受け入れることができる。
つまり、入力チェインの一部で明確に定義された操作を実行するために呼び出された高度に特殊化されたモデルや、デフォルトでベースモデルを使用する会話などです。
我々は、aLoRAを用いて一連の内在モデルのトレーニングを行い、標準のLoRAと競合する精度を示しながら、重要な推論の利点を享受する。
関連論文リスト
- LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization [78.93425154518705]
低ランク適応 (LoRA) は、メモリ要求を低減し、LLMのパラメータ効率の高い微調整法である。
本稿では,LoRA最適化のための適応行列プレコンディショニング手法であるLoRA-RITEを紹介する。
論文 参考訳(メタデータ) (2024-10-27T22:57:12Z) - NoRA: Nested Low-Rank Adaptation for Efficient Fine-Tuning Large Models [27.757883818520217]
Nested Low-Rank Adaptation (NoRA) はパラメータ効率の良い微調整のための新しいアプローチである。
外部のLoRA重みを凍結し、内部のLoRA設計を使用することで、NORAはコンパクトなパラメータ空間で正確なタスク適応を可能にする。
論文 参考訳(メタデータ) (2024-08-18T12:18:56Z) - LoRA-XS: Low-Rank Adaptation with Extremely Small Number of Parameters [11.23006032094776]
トレーニング可能なパラメータを格段に削減し,優れた性能と競争性能を示すLoRA-XSを提案する。
LoRA-XSは、LoRAと比較して、トレーニング可能なパラメータを7Bモデルで100倍以上削減する。
論文 参考訳(メタデータ) (2024-05-27T19:07:13Z) - Safe LoRA: the Silver Lining of Reducing Safety Risks when Fine-tuning Large Language Models [51.20476412037321]
提案するSafe LoRAは,選択した層からのLoRA重みの投影を安全に整合した部分空間に導入することにより,オリジナルのLoRA実装に対する単純なワンライナーパッチである。
我々の実験は、純粋に悪意のあるデータに対して微調整を行う場合、Safe LoRAは元のアライメントモデルと同様の安全性を保っていることを示した。
論文 参考訳(メタデータ) (2024-05-27T05:04:05Z) - ResLoRA: Identity Residual Mapping in Low-Rank Adaption [96.59370314485074]
低ランク適応(LoRA)の改良フレームワークであるResLoRAを提案する。
提案手法は,LoRAと比較してトレーニング可能なパラメータや推論コストを必要とせずに,より少ないトレーニングステップでより良い結果を得ることができる。
NLG,NLU,テキスト・ツー・イメージタスクの実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-02-28T04:33:20Z) - LoRA-Flow: Dynamic LoRA Fusion for Large Language Models in Generative
Tasks [72.88244322513039]
LoRAは、ダウンストリームタスクやドメイン毎に大きな言語モデル(LLM)をカスタマイズするために軽量モジュールを使用している。
動的重みを利用して異なるLoRAの影響を調整するLoRA-Flowを提案する。
6つの生成タスクに対する実験により、我々の手法はタスクレベルの融合重みでベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2024-02-18T04:41:25Z) - DoRA: Weight-Decomposed Low-Rank Adaptation [57.68678247436207]
本稿では,FTとLoRAの相違点を明らかにするために,新しい重み分解解析法を提案する。
本研究は、FTの学習能力に類似することを目的として、重量分解低ランク適応(DoRA)を提案する。
DoRAは、事前訓練された重量を、微調整のための大きさと方向の2つの構成要素に分解する。
論文 参考訳(メタデータ) (2024-02-14T17:59:34Z) - Chain of LoRA: Efficient Fine-tuning of Language Models via Residual
Learning [31.036465632204663]
本稿では,Frank-Wolfeアルゴリズムにインスパイアされた反復最適化フレームワークであるLoRAのChainを紹介する。
計算コストやメモリコストを増大させることなく,COLA が LoRA を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-01-08T14:26:49Z) - S-LoRA: Serving Thousands of Concurrent LoRA Adapters [59.490751234925206]
パラメータ効率のよい微調整法であるLoRA(Lo-Rank Adaptation)は、ベースモデルを複数のタスクに適応させるためによく用いられる。
本稿では,多数のLoRAアダプタのスケーラブルな提供を目的としたシステムであるS-LoRAを提案する。
論文 参考訳(メタデータ) (2023-11-06T17:26:17Z) - LoRA-FA: Memory-efficient Low-rank Adaptation for Large Language Models
Fine-tuning [19.08716369943138]
本稿では,性能劣化やコストのかかる再計算を伴わずに,メモリ効率のよい微調整法であるLoRA-FAを提案する。
この結果から,LORA-FAは全パラメータの微調整やLORAと比較して,各タスクにまたがる精密調整の精度が常に高いことがわかった。
論文 参考訳(メタデータ) (2023-08-07T05:12:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。