Fugu-MT 論文翻訳(概要): Parameter-Efficient Fine-Tuning via Circular Convolution

論文の概要: Parameter-Efficient Fine-Tuning via Circular Convolution

arxiv url: http://arxiv.org/abs/2407.19342v1
Date: Sat, 27 Jul 2024 21:12:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-30 18:41:57.642787
Title: Parameter-Efficient Fine-Tuning via Circular Convolution
Title（参考訳）: 循環的畳み込みによるパラメータ効率の良いファインチューニング
Authors: Aochuan Chen, Ziqi Gao, Zijing Liu, Yu Li, Jia Li,
Abstract要約: Low-Rank Adaptation (LoRA)は、微調整された大規模な基盤モデルで人気を博している。我々は、アンダーラインCirunderlinecular underlineConvolution underlineAdaptation (C$3$A)を提案する。 C$3$Aは、LoRAとその変種を様々な微調整タスクで一貫して上回っている。
参考スコア（独自算出の注目度）: 25.022885473822825
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Low-Rank Adaptation (LoRA) has gained popularity for fine-tuning large foundation models, leveraging low-rank matrices $\mathbf{A}$ and $\mathbf{B}$ to represent weight changes (\textit{i.e.,} $\Delta \mathbf{W} = \mathbf{B} \mathbf{A}$). This method reduces trainable parameters and mitigates heavy memory consumption associated with full delta matrices by sequentially multiplying $\mathbf{A}$ and $\mathbf{B}$ with the activation. Despite its success, the intrinsic low-rank characteristic may limit its performance. Although several variants have been proposed to address this issue, they often overlook the crucial computational and memory efficiency brought by LoRA. In this paper, we propose \underline{C}ir\underline{c}ular \underline{C}onvolution \underline{A}daptation (C$^3$A), which not only achieves high-rank adaptation with enhanced performance but also excels in both computational power and memory utilization. Extensive experiments demonstrate that C$^3$A consistently outperforms LoRA and its variants across various fine-tuning tasks.
Abstract（参考訳）: Low-Rank Adaptation (LoRA) は、低ランク行列 $\mathbf{A}$ と $\mathbf{B}$ を利用して、重量変化を表す (\textit{i.e.,} $\Delta \mathbf{W} = \mathbf{B} \mathbf{A}$)。この方法は、トレーニング可能なパラメータを減らし、活性化とともに$\mathbf{A}$と$\mathbf{B}$を順次乗算することで、完全なデルタ行列に関連する重いメモリ消費を緩和する。その成功にもかかわらず、本質的な低ランク特性は性能を制限する可能性がある。この問題に対処するためにいくつかの変種が提案されているが、彼らはしばしばLoRAによってもたらされた重要な計算とメモリ効率を見落としている。本稿では,高性能化とともに高階適応を実現するだけでなく,計算能力とメモリ利用の両面で優れる,Shaunderline{C}ir\underline{c}ular \underline{C}onvolution \underline{A}daptation (C$^3$A)を提案する。大規模な実験により、C$^3$A はLoRAとその変種を様々な微調整タスクで一貫して上回ることを示した。

関連論文リスト

WeightLoRA: Keep Only Necessary Adapters [79.89637596855]
低ランク適応(texttLoRA$)は、指定されたレイヤにトレーニング可能なアダプタを追加する。我々は、最も重要な$textttLoRA$ヘッダの適応的な選択によってこの問題を克服する新しい方法である$textttWeightLoRA$を提案する。我々は、一連の競合ベンチマークとDeBERTa、BART、Llamaモデルの実験を行い、我々の手法を異なる適応的アプローチと比較した。
論文参考訳（メタデータ） (2025-06-03T10:33:16Z)
Theoretical Insights into Fine-Tuning Attention Mechanism: Generalization and Optimization [27.907707931902547]
大規模言語モデルの微調整における注意機構に関連する2つの現象について検討する。注意行列の不等式」と呼ばれる最初の現象は、微調整された異なる重量行列の影響を浮き彫りにする。第2の現象である"Attention Matrices with Customized Learning Rates to Better Convergence"は、異なる学習率を割り当てることの重要性を強調している。
論文参考訳（メタデータ） (2024-10-03T06:37:37Z)
CoRA: Optimizing Low-Rank Adaptation with Common Subspace of Large Language Models [7.108651381160281]
Low-Rank Adaptation (LoRA) 戦略は、微調整された大型モデルにおける効率と性能のバランスをとる。我々は、共有知識を活用してLoRAトレーニングを最適化するtextbfCoRAを提案する。実験の結果,最初のアプローチは,パラメータの半減よりも効率が良く,元のLoRAファインチューニングと同じ効果が得られることがわかった。
論文参考訳（メタデータ） (2024-08-31T12:48:27Z)
LoRA$^2$ : Multi-Scale Low-Rank Approximations for Fine-Tuning Large Language Models [3.7049613588433497]
Low-Rank Adaptation (LoRA)は、微調整のためのトレーニング可能なパラメータの数を著しく削減する。 LoRAを複数のスケールに拡張し、LoRA$2$と名付けます。
論文参考訳（メタデータ） (2024-08-13T12:31:30Z)
SBoRA: Low-Rank Adaptation with Regional Weight Updates [19.15481369459963]
本稿では,SBORA(Standard Basis LoRA)を提案する。 SBoRAはトレーニング可能なパラメータの数を半分に減らし、LoRAと同様のトレーニング可能なパラメータの数でランクを2倍にする。本研究は,LoraよりもSBoRA-FAの方が,常識推論や算術推論など,様々な微調整タスクにおいて優れていることを示す。
論文参考訳（メタデータ） (2024-07-07T15:37:13Z)
Asymmetry in Low-Rank Adapters of Foundation Models [47.310550805920585]
本稿では、低ランクアダプタ行列の重要性において、予期せぬ非対称性を特徴付け、活用する。我々は、細調整の$B$が、細調整の$A$よりも本質的に効果的であることを示し、ランダムな未トレーニングの$A$は、細調整の$A$よりもほぼ同等に機能することを示します。
論文参考訳（メタデータ） (2024-02-26T18:59:12Z)
Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文参考訳（メタデータ） (2024-01-29T18:43:49Z)
Provably Efficient High-Dimensional Bandit Learning with Batched Feedbacks [93.00280593719513]
本稿では,オンラインインタラクションのT$ステップをバッチに分割したバッチフィードバックによる高次元マルチアームコンテキストバンドレットについて検討する。具体的には、各バッチは以前のバッチに依存するポリシーに従ってデータを収集し、その報酬はバッチの最後にのみ明らかにする。我々のアルゴリズムは,$mathcalO( log T)$ バッチで完全に逐次的に設定されたものに匹敵する後悔の限界を達成している。
論文参考訳（メタデータ） (2023-11-22T06:06:54Z)
Delta-LoRA: Fine-Tuning High-Rank Parameters with the Delta of Low-Rank Matrices [27.693028578653394]
Delta-LoRAは、ファインチューン大言語モデル(LLM)に対する新しいパラメータ効率のアプローチである LoRAやAdaLoRAのような他の低ランク適応手法とは対照的に、Delta-LoRAは低ランク行列を$bA$と$bB$で更新するだけでなく、事前訓練された重みへの学習を広める。
論文参考訳（メタデータ） (2023-09-05T17:40:34Z)
Monarch: Expressive Structured Matrices for Efficient and Accurate Training [64.6871423399431]
大規模なニューラルネットワークは多くのドメインで優れているが、トレーニングや微調整は高価である。計算やメモリ要件を減らすための一般的なアプローチは、重み付け行列を構造化行列に置き換えることである。ハードウェア効率のよい行列(Monarch)のクラスを提案する。
論文参考訳（メタデータ） (2022-04-01T17:37:29Z)
Minimax Optimal Quantization of Linear Models: Information-Theoretic Limits and Efficient Algorithms [59.724977092582535]
測定から学習した線形モデルの定量化の問題を考える。この設定の下では、ミニマックスリスクに対する情報理論の下限を導出する。本稿では,2層ReLUニューラルネットワークに対して,提案手法と上界を拡張可能であることを示す。
論文参考訳（メタデータ） (2022-02-23T02:39:04Z)
Bayesian Optimistic Optimisation with Exponentially Decaying Regret [58.02542541410322]
現在の実用的なBOアルゴリズムは、$mathcalO(fraclogNsqrtN)$から$mathcalO(e-sqrtN)$まで、$N$は評価の数である。本稿では,boと木に基づく楽観的楽観化の概念を絡み合うことにより,無音環境における後悔を改善できる可能性について検討する。次数$mathcal O(N-sqrt)で指数的再帰を達成できる最初の実践的手法であるBOOアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-05-10T13:07:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。