Fugu-MT 論文翻訳(概要): Asymmetry in Low-Rank Adapters of Foundation Models

論文の概要: Asymmetry in Low-Rank Adapters of Foundation Models

arxiv url: http://arxiv.org/abs/2402.16842v2
Date: Tue, 27 Feb 2024 18:06:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-28 19:19:41.612139
Title: Asymmetry in Low-Rank Adapters of Foundation Models
Title（参考訳）: 基礎モデルの低ランク適応器の非対称性
Authors: Jiacheng Zhu, Kristjan Greenewald, Kimia Nadjahi, Haitz S\'aez de Oc\'ariz Borde, Rickard Br\"uel Gabrielsson, Leshem Choshen, Marzyeh Ghassemi, Mikhail Yurochkin, Justin Solomon
Abstract要約: 本稿では、低ランクアダプタ行列の重要性において、予期せぬ非対称性を特徴付け、活用する。我々は、細調整の$B$が、細調整の$A$よりも本質的に効果的であることを示し、ランダムな未トレーニングの$A$は、細調整の$A$よりもほぼ同等に機能することを示します。
参考スコア（独自算出の注目度）: 47.310550805920585
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Parameter-efficient fine-tuning optimizes large, pre-trained foundation models by updating a subset of parameters; in this class, Low-Rank Adaptation (LoRA) is particularly effective. Inspired by an effort to investigate the different roles of LoRA matrices during fine-tuning, this paper characterizes and leverages unexpected asymmetry in the importance of low-rank adapter matrices. Specifically, when updating the parameter matrices of a neural network by adding a product $BA$, we observe that the $B$ and $A$ matrices have distinct functions: $A$ extracts features from the input, while $B$ uses these features to create the desired output. Based on this observation, we demonstrate that fine-tuning $B$ is inherently more effective than fine-tuning $A$, and that a random untrained $A$ should perform nearly as well as a fine-tuned one. Using an information-theoretic lens, we also bound the generalization of low-rank adapters, showing that the parameter savings of exclusively training $B$ improves the bound. We support our conclusions with experiments on RoBERTa, BART-Large, LLaMA-2, and ViTs.
Abstract（参考訳）: パラメータ効率の良い微調整は、パラメータのサブセットを更新することで、大規模で事前訓練された基礎モデルを最適化する。微調整におけるLoRA行列の役割の相違から着想を得て,低ランクアダプタ行列の重要性において予期せぬ非対称性を特徴付ける。具体的には、製品$ba$を追加してニューラルネットワークのパラメータ行列を更新するとき、$b$ と $a$ の行列が異なる関数を持つことを観察します。この観察に基づいて、細調整の$B$は、細調整の$A$よりも本質的に有効であり、ランダムな未トレーニングの$A$は、細調整の$A$よりもほぼ同等に実行されるべきであることを示す。また,情報理論レンズを用いて低ランクアダプタの一般化を行ない,B$の専用トレーニングのパラメータセーブがバウンドを改善することを示した。我々はRoBERTa, BART-Large, LLaMA-2, ViTsの実験で結論を支持した。

関連論文リスト

WeightLoRA: Keep Only Necessary Adapters [79.89637596855]
低ランク適応(texttLoRA$)は、指定されたレイヤにトレーニング可能なアダプタを追加する。我々は、最も重要な$textttLoRA$ヘッダの適応的な選択によってこの問題を克服する新しい方法である$textttWeightLoRA$を提案する。我々は、一連の競合ベンチマークとDeBERTa、BART、Llamaモデルの実験を行い、我々の手法を異なる適応的アプローチと比較した。
論文参考訳（メタデータ） (2025-06-03T10:33:16Z)
FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA [61.79405341803085]
低ランク適応(LoRA)は、フェデレートラーニング(FL)における言語モデルの効率的な微調整に広く用いられている。低ランク適応(LoRA)は、フェデレートラーニング(FL)における言語モデルの効率的な微調整に広く用いられている。
論文参考訳（メタデータ） (2025-05-19T07:32:56Z)
VectorFit : Adaptive Singular & Bias Vector Fine-Tuning of Pre-trained Foundation Models [0.8875650122536799]
本稿では,VectorFitを紹介する。VectorFitは,その特異ベクトルとバイアスを適応的にトレーニングすることで,$W$に埋め込まれた既存の知識を効率的に活用する。この方法では、$W$の構造的および変換的性質を利用することで、完全な微調整に匹敵する高階インクリメンタルウェイト行列が$Delta W$となることが示される。
論文参考訳（メタデータ） (2025-03-25T10:36:27Z)
MM-RLHF: The Next Step Forward in Multimodal LLM Alignment [59.536850459059856]
MM-RLHF, $mathbf120k$ fine-fine, human-annotated preference comparison pairsを含むデータセットを紹介する。本稿では,報酬モデルの品質向上とアライメントアルゴリズムの効率向上のために,いくつかの重要なイノベーションを提案する。我々のアプローチは、$mathbf10$の異なる次元と$mathbf27$のベンチマークで厳格に評価されている。
論文参考訳（メタデータ） (2025-02-14T18:59:51Z)
Expanding Sparse Tuning for Low Memory Usage [103.43560327427647]
メモリ使用量が少ないスパースチューニングのためのSNELL(Sparse tuning with kerNelized LoRA)法を提案する。低メモリ使用量を達成するため、SNELLはスカラー化のための調整可能な行列を2つの学習可能な低ランク行列に分解する。コンペティションに基づくスペーシフィケーション機構は、チューナブルウェイトインデックスの保存を避けるためにさらに提案される。
論文参考訳（メタデータ） (2024-11-04T04:58:20Z)
LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、下流タスクのための大規模な事前学習モデルに効果的に適応する、PEFT (Efficient Fine Tuning) 手法として人気がある。モデル更新に低階テンソルパラメトリゼーションを用いる新しい手法を提案する。提案手法は,大規模言語モデルの微調整に有効であり,比較性能を維持しつつ,パラメータ数の大幅な削減を実現している。
論文参考訳（メタデータ） (2024-10-05T06:59:50Z)
Theoretical Insights into Fine-Tuning Attention Mechanism: Generalization and Optimization [27.907707931902547]
大規模言語モデルの微調整における注意機構に関連する2つの現象について検討する。注意行列の不等式」と呼ばれる最初の現象は、微調整された異なる重量行列の影響を浮き彫りにする。第2の現象である"Attention Matrices with Customized Learning Rates to Better Convergence"は、異なる学習率を割り当てることの重要性を強調している。
論文参考訳（メタデータ） (2024-10-03T06:37:37Z)
CoRA: Optimizing Low-Rank Adaptation with Common Subspace of Large Language Models [7.108651381160281]
Low-Rank Adaptation (LoRA) 戦略は、微調整された大型モデルにおける効率と性能のバランスをとる。我々は、共有知識を活用してLoRAトレーニングを最適化するtextbfCoRAを提案する。実験の結果,最初のアプローチは,パラメータの半減よりも効率が良く,元のLoRAファインチューニングと同じ効果が得られることがわかった。
論文参考訳（メタデータ） (2024-08-31T12:48:27Z)
Parameter-Efficient Fine-Tuning via Circular Convolution [29.442868470645482]
Low-Rank Adaptation (LoRA)は、微調整された大規模な基盤モデルで人気を博している。本稿では,Circular Convolution Adaptation (C$3$A)を提案する。
論文参考訳（メタデータ） (2024-07-27T21:12:46Z)
SBoRA: Low-Rank Adaptation with Regional Weight Updates [19.15481369459963]
本稿では,SBORA(Standard Basis LoRA)を提案する。 SBoRAはトレーニング可能なパラメータの数を半分に減らし、LoRAと同様のトレーニング可能なパラメータの数でランクを2倍にする。本研究は,LoraよりもSBoRA-FAの方が,常識推論や算術推論など,様々な微調整タスクにおいて優れていることを示す。
論文参考訳（メタデータ） (2024-07-07T15:37:13Z)
Transfer Q Star: Principled Decoding for LLM Alignment [105.89114186982972]
Transfer $Q*$は、ベースラインモデルを通してターゲット報酬$r$の最適値関数を推定する。提案手法は, 従来のSoTA法で観測された準最適差を著しく低減する。
論文参考訳（メタデータ） (2024-05-30T21:36:12Z)
A Single Linear Layer Yields Task-Adapted Low-Rank Matrices [4.695004706877747]
Low-Rank Adaptation (LoRA) は、初期重量行列$W_0$をデルタ行列$Delta W$で更新するPEFT (Efficient Fine-Tuning) 法として広く用いられている。 CondLoRAのトレーニング可能なパラメータがLoRAのパラメータよりも少ないにもかかわらず、CondLoRAはLoRAと同等のパフォーマンスを維持していることを示す。
論文参考訳（メタデータ） (2024-03-22T04:38:42Z)
AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning [143.23123791557245]
下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。我々は,AdaLoRAの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルを用いた広範囲な実験を行った。
論文参考訳（メタデータ） (2023-03-18T22:36:25Z)
Supervised Quantile Normalization for Low-rank Matrix Approximation [50.445371939523305]
我々は、$X$ の値と $UV$ の値を行ワイズで操作できる量子正規化演算子のパラメータを学習し、$X$ の低ランク表現の質を改善する。本稿では,これらの手法が合成およびゲノムデータセットに適用可能であることを実証する。
論文参考訳（メタデータ） (2020-02-08T21:06:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。