論文の概要: BoRA: Towards More Expressive Low-Rank Adaptation with Block Diversity
- arxiv url: http://arxiv.org/abs/2508.06953v1
- Date: Sat, 09 Aug 2025 11:58:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.626112
- Title: BoRA: Towards More Expressive Low-Rank Adaptation with Block Diversity
- Title(参考訳): BoRA: ブロックの多様性を備えたより表現力豊かな低ランク適応を目指す
- Authors: Shiwei Li, Xiandi Luo, Haozhao Wang, Xing Tang, Ziqiang Cui, Dugang Liu, Yuhua Li, Xiuqiang He, Ruixuan Li,
- Abstract要約: 低ランク適応(LoRA)は、大規模言語モデルで広く使われているパラメータ効率のよい微調整(PEFT)手法である。
本稿では,LoRA重みのランクを,少数のパラメータで改善するBlock Diversified Low-Rank Adaptation (BoRA)を提案する。
- 参考スコア(独自算出の注目度): 23.25105718896569
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-rank adaptation (LoRA) is a parameter-efficient fine-tuning (PEFT) method widely used in large language models (LLMs). It approximates the update of a pretrained weight matrix $W\in\mathbb{R}^{m\times n}$ by the product of two low-rank matrices, $BA$, where $A \in\mathbb{R}^{r\times n}$ and $B\in\mathbb{R}^{m\times r} (r\ll\min\{m,n\})$. Increasing the dimension $r$ can raise the rank of LoRA weights (i.e., $BA$), which typically improves fine-tuning performance but also significantly increases the number of trainable parameters. In this paper, we propose Block Diversified Low-Rank Adaptation (BoRA), which improves the rank of LoRA weights with a small number of additional parameters. Specifically, BoRA treats the product $BA$ as a block matrix multiplication, where $A$ and $B$ are partitioned into $b$ blocks along the columns and rows, respectively (i.e., $A=[A_1,\dots,A_b]$ and $B=[B_1,\dots,B_b]^\top$). Consequently, the product $BA$ becomes the concatenation of the block products $B_iA_j$ for $i,j\in[b]$. To enhance the diversity of different block products, BoRA introduces a unique diagonal matrix $\Sigma_{i,j} \in \mathbb{R}^{r\times r}$ for each block multiplication, resulting in $B_i \Sigma_{i,j} A_j$. By leveraging these block-wise diagonal matrices, BoRA increases the rank of LoRA weights by a factor of $b$ while only requiring $b^2r$ additional parameters. Extensive experiments across multiple datasets and models demonstrate the superiority of BoRA, and ablation studies further validate its scalability.
- Abstract(参考訳): 低ランク適応 (LoRA) は、大規模言語モデル (LLM) で広く使われているパラメータ効率の良い微調整 (PEFT) 手法である。
事前訓練された重み行列 $W\in\mathbb{R}^{m\times n}$ の更新を、2つの低ランク行列 $BA$ の積 $A \in\mathbb{R}^{r\times n}$ と $B\in\mathbb{R}^{m\times r} (r\ll\min\{m,n\})$ によって近似する。
次元を$r$にすると、LoRAウェイト(例えば$BA$)のランクが上昇し、通常は微調整性能が向上するが、トレーニング可能なパラメータの数も大幅に増加する。
本稿では,ロラ重みのランクを若干のパラメータで改善するBlock Diversified Low-Rank Adaptation (BoRA)を提案する。
具体的には、BoRAは製品$BA$をブロック行列乗法として扱い、$A$と$B$はそれぞれ列と行に沿って$b$ブロックに分割される($A=[A_1,\dots,A_b]$と$B=[B_1,\dots,B_b]^\top$)。
したがって、積 $BA$ はブロック積 $B_iA_j$ for $i,j\in[b]$ の連結となる。
異なるブロック積の多様性を高めるため、BoRAはブロック乗法毎に独自の対角行列 $\Sigma_{i,j} \in \mathbb{R}^{r\times r}$ を導入し、結果として$B_i \Sigma_{i,j} A_j$ となる。
これらのブロックワイド対角行列を利用することで、BoRAはロラ重みのランクを$b$の係数で増加させ、さらに$b^2r$のパラメータのみを必要とする。
複数のデータセットやモデルにわたる大規模な実験は、BoRAの優位性を示し、アブレーション研究はそのスケーラビリティをさらに検証している。
関連論文リスト
- Group Representational Position Encoding [66.33026480082025]
グループ行動に基づく位置符号化のための統一的なフレームワークであるGRAPEを提案する。
i)乗法回転 (Multiplicative GRAPE) in $mathrmSO(d)$ と (ii)加法ロジットバイアス (Additive GRAPE) は一般線型群 $mathrmGL$ における一等作用から生じる。
論文 参考訳(メタデータ) (2025-12-08T18:39:13Z) - Evolution Strategies at the Hyperscale [57.75314521465674]
本稿では,大集団にバックプロップフリーな最適化を拡大するための進化戦略(ES)アルゴリズムEGGROLLを紹介する。
ESは、微分不可能またはノイズの多い目的を処理できる強力なブラックボックス最適化手法のセットである。
EGGROLLはランダム行列を$Ain mathbbRmtimes r, Bin mathbbRntimes r$ with $rll min(m,n)$ とすることでこれらのボトルネックを克服し、低ランク行列摂動を$A Btop$とする。
論文 参考訳(メタデータ) (2025-11-20T18:56:05Z) - FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA [61.79405341803085]
低ランク適応(LoRA)は、フェデレートラーニング(FL)における言語モデルの効率的な微調整に広く用いられている。
低ランク適応(LoRA)は、フェデレートラーニング(FL)における言語モデルの効率的な微調整に広く用いられている。
論文 参考訳(メタデータ) (2025-05-19T07:32:56Z) - The Communication Complexity of Approximating Matrix Rank [50.6867896228563]
この問題は通信複雑性のランダム化を$Omega(frac1kcdot n2log|mathbbF|)$とする。
アプリケーションとして、$k$パスを持つ任意のストリーミングアルゴリズムに対して、$Omega(frac1kcdot n2log|mathbbF|)$スペースローバウンドを得る。
論文 参考訳(メタデータ) (2024-10-26T06:21:42Z) - CoRA: Optimizing Low-Rank Adaptation with Common Subspace of Large Language Models [7.108651381160281]
Low-Rank Adaptation (LoRA) 戦略は、微調整された大型モデルにおける効率と性能のバランスをとる。
我々は、共有知識を活用してLoRAトレーニングを最適化するtextbfCoRAを提案する。
実験の結果,最初のアプローチは,パラメータの半減よりも効率が良く,元のLoRAファインチューニングと同じ効果が得られることがわかった。
論文 参考訳(メタデータ) (2024-08-31T12:48:27Z) - Parameter-Efficient Fine-Tuning via Circular Convolution [29.442868470645482]
Low-Rank Adaptation (LoRA)は、微調整された大規模な基盤モデルで人気を博している。
本稿では,Circular Convolution Adaptation (C$3$A)を提案する。
論文 参考訳(メタデータ) (2024-07-27T21:12:46Z) - SBoRA: Low-Rank Adaptation with Regional Weight Updates [19.15481369459963]
本稿では,SBORA(Standard Basis LoRA)を提案する。
SBoRAはトレーニング可能なパラメータの数を半分に減らし、LoRAと同様のトレーニング可能なパラメータの数でランクを2倍にする。
本研究は,LoraよりもSBoRA-FAの方が,常識推論や算術推論など,様々な微調整タスクにおいて優れていることを示す。
論文 参考訳(メタデータ) (2024-07-07T15:37:13Z) - A Single Linear Layer Yields Task-Adapted Low-Rank Matrices [4.695004706877747]
Low-Rank Adaptation (LoRA) は、初期重量行列$W_0$をデルタ行列$Delta W$で更新するPEFT (Efficient Fine-Tuning) 法として広く用いられている。
CondLoRAのトレーニング可能なパラメータがLoRAのパラメータよりも少ないにもかかわらず、CondLoRAはLoRAと同等のパフォーマンスを維持していることを示す。
論文 参考訳(メタデータ) (2024-03-22T04:38:42Z) - Asymmetry in Low-Rank Adapters of Foundation Models [47.310550805920585]
本稿では、低ランクアダプタ行列の重要性において、予期せぬ非対称性を特徴付け、活用する。
我々は、細調整の$B$が、細調整の$A$よりも本質的に効果的であることを示し、ランダムな未トレーニングの$A$は、細調整の$A$よりもほぼ同等に機能することを示します。
論文 参考訳(メタデータ) (2024-02-26T18:59:12Z) - Delta-LoRA: Fine-Tuning High-Rank Parameters with the Delta of Low-Rank
Matrices [27.693028578653394]
Delta-LoRAは、ファインチューン大言語モデル(LLM)に対する新しいパラメータ効率のアプローチである
LoRAやAdaLoRAのような他の低ランク適応手法とは対照的に、Delta-LoRAは低ランク行列を$bA$と$bB$で更新するだけでなく、事前訓練された重みへの学習を広める。
論文 参考訳(メタデータ) (2023-09-05T17:40:34Z) - Spectral properties of sample covariance matrices arising from random
matrices with independent non identically distributed columns [50.053491972003656]
関数 $texttr(AR(z))$, for $R(z) = (frac1nXXT- zI_p)-1$ and $Ain mathcal M_p$ deterministic, have a standard deviation of order $O(|A|_* / sqrt n)$.
ここでは、$|mathbb E[R(z)] - tilde R(z)|_F を示す。
論文 参考訳(メタデータ) (2021-09-06T14:21:43Z) - Learning a Latent Simplex in Input-Sparsity Time [58.30321592603066]
我々は、$AinmathbbRdtimes n$へのアクセスを考えると、潜入$k$-vertex simplex $KsubsetmathbbRdtimes n$を学習する問題を考える。
実行時間における$k$への依存は、トップ$k$特異値の質量が$a$であるという自然な仮定から不要であることを示す。
論文 参考訳(メタデータ) (2021-05-17T16:40:48Z) - Variance-Aware Confidence Set: Variance-Dependent Bound for Linear
Bandits and Horizon-Free Bound for Linear Mixture MDP [76.94328400919836]
線形バンドイットと線形混合決定プロセス(mdp)に対する分散認識信頼セットの構築方法を示す。
線形バンドイットに対しては、$d を特徴次元とする$widetildeo(mathrmpoly(d)sqrt1 + sum_i=1ksigma_i2) が成り立つ。
線形混合 MDP に対し、$widetildeO(mathrmpoly(d)sqrtK)$ regret bound を得る。
論文 参考訳(メタデータ) (2021-01-29T18:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。