Fugu-MT 論文翻訳(概要): DoRA: Weight-Decomposed Low-Rank Adaptation

論文の概要: DoRA: Weight-Decomposed Low-Rank Adaptation

arxiv url: http://arxiv.org/abs/2402.09353v6
Date: Tue, 9 Jul 2024 05:59:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-11 00:01:00.983462
Title: DoRA: Weight-Decomposed Low-Rank Adaptation
Title（参考訳）: DoRA:重量分解低ランク適応
Authors: Shih-Yang Liu, Chien-Yi Wang, Hongxu Yin, Pavlo Molchanov, Yu-Chiang Frank Wang, Kwang-Ting Cheng, Min-Hung Chen,
Abstract要約: 本稿では,FTとLoRAの相違点を明らかにするために,新しい重み分解解析法を提案する。本研究は、FTの学習能力に類似することを目的として、重量分解低ランク適応(DoRA)を提案する。 DoRAは、事前訓練された重量を、微調整のための大きさと方向の2つの構成要素に分解する。
参考スコア（独自算出の注目度）: 57.68678247436207
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Among the widely used parameter-efficient fine-tuning (PEFT) methods, LoRA and its variants have gained considerable popularity because of avoiding additional inference costs. However, there still often exists an accuracy gap between these methods and full fine-tuning (FT). In this work, we first introduce a novel weight decomposition analysis to investigate the inherent differences between FT and LoRA. Aiming to resemble the learning capacity of FT from the findings, we propose Weight-Decomposed Low-Rank Adaptation (DoRA). DoRA decomposes the pre-trained weight into two components, magnitude and direction, for fine-tuning, specifically employing LoRA for directional updates to efficiently minimize the number of trainable parameters. By employing \ours, we enhance both the learning capacity and training stability of LoRA while avoiding any additional inference overhead. \ours~consistently outperforms LoRA on fine-tuning LLaMA, LLaVA, and VL-BART on various downstream tasks, such as commonsense reasoning, visual instruction tuning, and image/video-text understanding. Code is available at https://github.com/NVlabs/DoRA.
Abstract（参考訳）: 広く使われているパラメータ効率の微調整(PEFT)手法の中で、LoRAとその変種は追加の推論コストを避けるためにかなりの人気を得ている。しかし、これらの手法とフル微調整(FT)の間には精度のギャップがまだ残っている。そこで本研究では,FTとLoRAの相違点を明らかにするために,新しい重み分解解析法を提案する。本研究は,FTの学習能力に類似して,重み分解型低ランク適応(DoRA)を提案する。 DoRAは、トレーニング済みの重量を2つのコンポーネント、マグニチュードと方向に分解して微調整し、特に、トレーニング可能なパラメータの数を効率的に最小化するために、方向更新にLoRAを使用している。ここでは,LoRAの学習能力とトレーニング安定性を両立させながら,追加の推論オーバーヘッドを回避した。微調整のLLaMA、LLaVA、VL-BARTでは、コモンセンス推論、ビジュアルインストラクションチューニング、画像/ビデオテキスト理解など、様々なダウンストリームタスクでLoRAを一貫して上回ります。コードはhttps://github.com/NVlabs/DoRA.comで入手できる。

関連論文リスト

SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning [73.93639228235622]
基礎モデルによる継続的な学習は、シーケンシャルなタスクに取り組むための事前トレーニング中に得られた豊富な知識を活用するための有望なパラダイムとして現れてきた。既存のプロンプトベースおよびローランク適応ベース(LoRAベース)メソッドでは、プロンプト/ローラプールの拡張や、以前のタスクのサンプルの保持がしばしば必要である。クラスインクリメンタル学習のためのスケーラブルデカップリングLoRA(SD-LoRA)を提案する。
論文参考訳（メタデータ） (2025-01-22T20:00:41Z)
EDoRA: Efficient Weight-Decomposed Low-Rank Adaptation via Singular Value Decomposition [2.5269004336032186]
Efficient Weight-Decomposed Low-Rank Adaptation (EDoRA) は、事前学習した重量を大きさと方向の成分に分解する新しいPEFT法である。 EDoRAは、LoRAやDoRAのような最先端の手法と比較して、競争力や優れた性能を達成する。
論文参考訳（メタデータ） (2025-01-21T11:42:09Z)
LoRA vs Full Fine-tuning: An Illusion of Equivalence [76.11938177294178]
我々は,Low-Rank Adaptation (LoRA) とフルファインタニングによる事前学習モデルについて検討する。特異値分解が全く異なる構造を示すLoRAおよび完全微調整収量行列が得られた。我々は、LoRAが完全な微調整を忘れてはならないという発見を拡張し、その忘れ物は侵入者次元に大きく局所化されていることを発見した。
論文参考訳（メタデータ） (2024-10-28T17:14:01Z)
LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization [78.93425154518705]
低ランク適応 (LoRA) は、メモリ要求を低減し、LLMのパラメータ効率の高い微調整法である。本稿では,LoRA最適化のための適応行列プレコンディショニング手法であるLoRA-RITEを紹介する。
論文参考訳（メタデータ） (2024-10-27T22:57:12Z)
Randomized Asymmetric Chain of LoRA: The First Meaningful Theoretical Framework for Low-Rank Adaptation [58.288682735160585]
Low-Rank Adaptation (LoRA) は、ファインチューニングモデルの一般的なテクニックである。 LoRAは、フルパラメータの微調整と比較すると、しばしば実行されます。本稿では,LoRA手法の適応率を厳密に分析するフレームワークを提案する。
論文参考訳（メタデータ） (2024-10-10T18:51:53Z)
Bone: Block-Affine Adaptation of Large Language Models [0.0]
Low-Rank Adaptation (LoRA)は、オリジナルの重量を凍結し、低ランクの行列のみを訓練することで、優れたトレーニング結果を得た。本稿では,Block-Affine Adaptation (Bone)と呼ばれる,LoRAとは異なる新しいPEFT手法を提案する。 Boneはメモリ使用量を大幅に削減し、高速な計算を実現する。
論文参考訳（メタデータ） (2024-09-19T10:26:42Z)
LoRA Learns Less and Forgets Less [25.09261710396838]
Low-Rank Adaptation (LoRA) は、大規模言語モデルのパラメータ効率の高い微調整法である。プログラムと数学の2つの対象領域におけるLoRAの性能と完全な微調整を比較した。
論文参考訳（メタデータ） (2024-05-15T19:27:45Z)
ResLoRA: Identity Residual Mapping in Low-Rank Adaption [96.59370314485074]
低ランク適応(LoRA)の改良フレームワークであるResLoRAを提案する。提案手法は,LoRAと比較してトレーニング可能なパラメータや推論コストを必要とせずに,より少ないトレーニングステップでより良い結果を得ることができる。 NLG,NLU,テキスト・ツー・イメージタスクの実験により,本手法の有効性が示された。
論文参考訳（メタデータ） (2024-02-28T04:33:20Z)
PeriodicLoRA: Breaking the Low-Rank Bottleneck in LoRA Optimization [39.30090456724925]
監視された微調整は、下流タスクに大規模言語モデル(LLM)を適用する最も一般的な方法である。完全な微調整には膨大な計算資源が必要である。 LoRAは最も広く使われている手法の1つであり、最適化過程は本質的に低次元であると仮定する。
論文参考訳（メタデータ） (2024-02-25T16:43:41Z)
A Rank Stabilization Scaling Factor for Fine-Tuning with LoRA [0.7252027234425334]
PEFTの一般的な手法はLoRA(Lo-Rank Adapters)であり、選択した層にトレーニング可能な低ランクの"アダプタ"を追加する。このスケーリング係数は、アダプタをランクの要素で分割するので、ローラの学習が遅くなり、上位のアダプタでスタントのパフォーマンスが低下する。我々はLoRAを適切なスケーリング係数で修正し、微調整の計算/性能トレードオフを容易に提供します。
論文参考訳（メタデータ） (2023-11-28T03:23:20Z)
AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning [143.23123791557245]
下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。我々は,AdaLoRAの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルを用いた広範囲な実験を行った。
論文参考訳（メタデータ） (2023-03-18T22:36:25Z)
LoRA: Low-Rank Adaptation of Large Language Models [71.75808607987281]
Low-Rank Adaptation (LoRA)はトレーニング済みモデルの重みを凍結し、トレーニング可能な階数分解をTransformerアーキテクチャの各層に注入する。 GPT-3では、LoRAはトレーニング可能なパラメータの数を1万倍に減らし、計算ハードウェアの要求をフル微調整の3倍に削減できる。
論文参考訳（メタデータ） (2021-06-17T17:37:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。