論文の概要: Gradient dynamics for low-rank fine-tuning beyond kernels
- arxiv url: http://arxiv.org/abs/2411.15385v1
- Date: Sat, 23 Nov 2024 00:00:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:22:51.740843
- Title: Gradient dynamics for low-rank fine-tuning beyond kernels
- Title(参考訳): カーネルを超えた低ランク微調整のためのグラディエントダイナミクス
- Authors: Arif Kerem Dayi, Sitan Chen,
- Abstract要約: 学生-教師設定における低ランク微調整について検討する。
基本モデルにおける行列であり,オンライン勾配勾配で訓練された学生モデルが,教師に収束する,という軽微な仮定の下で証明する。
- 参考スコア(独自算出の注目度): 9.275532709125242
- License:
- Abstract: LoRA has emerged as one of the de facto methods for fine-tuning foundation models with low computational cost and memory footprint. The idea is to only train a low-rank perturbation to the weights of a pre-trained model, given supervised data for a downstream task. Despite its empirical sucess, from a mathematical perspective it remains poorly understood what learning mechanisms ensure that gradient descent converges to useful low-rank perturbations. In this work we study low-rank fine-tuning in a student-teacher setting. We are given the weights of a two-layer base model $f$, as well as i.i.d. samples $(x,f^*(x))$ where $x$ is Gaussian and $f^*$ is the teacher model given by perturbing the weights of $f$ by a rank-1 matrix. This generalizes the setting of generalized linear model (GLM) regression where the weights of $f$ are zero. When the rank-1 perturbation is comparable in norm to the weight matrix of $f$, the training dynamics are nonlinear. Nevertheless, in this regime we prove under mild assumptions that a student model which is initialized at the base model and trained with online gradient descent will converge to the teacher in $dk^{O(1)}$ iterations, where $k$ is the number of neurons in $f$. Importantly, unlike in the GLM setting, the complexity does not depend on fine-grained properties of the activation's Hermite expansion. We also prove that in our setting, learning the teacher model "from scratch'' can require significantly more iterations.
- Abstract(参考訳): LoRAは計算コストとメモリフットプリントの少ない基礎モデルを微調整するデファクト手法の1つとして登場した。
このアイデアは、ダウンストリームタスクの教師付きデータが与えられた場合、トレーニング済みモデルの重みに低ランクな摂動をトレーニングするだけである。
経験的な仮定にもかかわらず、数学的な観点からも、勾配降下が有用な低ランク摂動に収束することを保証する学習メカニズムは理解されていない。
本研究は,学生-教師の環境下での低ランク微調整について検討する。
2層基底モデル $f$ の重みと、例えばサンプル $(x,f^*(x))$ ここで$x$はガウスであり、$f^*$ はランク1行列によって$f$の重みを摂動することによって与えられる教師モデルである。
これは一般化線形モデル(GLM)回帰の設定を一般化し、$f$の重みはゼロである。
ランク1の摂動が標準で$f$の重み行列に匹敵するならば、トレーニング力学は非線形である。
それにもかかわらず、この体制では、基本モデルで初期化され、オンライン勾配降下で訓練された学生モデルが、$dk^{O(1)}$反復で教師に収束する、という軽微な仮定の下で、$k$は$f$のニューロンの数である。
重要なことに、GLMの設定とは異なり、複雑さはアクティベーションのヘルミテ展開の微細な性質に依存しない。
私たちの設定では、教師モデルの"スクラッチから"を学ぶには、はるかに多くのイテレーションが必要になることも証明しています。
関連論文リスト
- Conditional regression for the Nonlinear Single-Variable Model [4.565636963872865]
F(X):=f(Pi_gamma):mathbbRdto[0,rmlen_gamma]$ ここで$Pi_gamma: [0,rmlen_gamma]tomathbbRd$と$f:[0,rmlen_gamma]tomathbbR1$を考える。
条件回帰に基づく非パラメトリック推定器を提案し、$one$-dimensionalOptimical min-maxレートを実現できることを示す。
論文 参考訳(メタデータ) (2024-11-14T18:53:51Z) - Learning Orthogonal Multi-Index Models: A Fine-Grained Information Exponent Analysis [45.05072391903122]
情報指数は、オンライン勾配降下のサンプルの複雑さを予測する上で重要な役割を果たす。
マルチインデックスモデルでは、最低度のみに焦点を合わせることで、重要な構造の詳細を見逃すことができる。
2次項と高次項の両方を考慮することで、まず2次項から関連する空間を学習できることが示される。
論文 参考訳(メタデータ) (2024-10-13T00:14:08Z) - Scaling Laws in Linear Regression: Compute, Parameters, and Data [86.48154162485712]
無限次元線形回帰セットアップにおけるスケーリング法則の理論について検討する。
テストエラーの再現可能な部分は$Theta(-(a-1) + N-(a-1)/a)$であることを示す。
我々の理論は経験的ニューラルスケーリング法則と一致し、数値シミュレーションによって検証される。
論文 参考訳(メタデータ) (2024-06-12T17:53:29Z) - A Unified Framework for Uniform Signal Recovery in Nonlinear Generative
Compressed Sensing [68.80803866919123]
非線形測定では、ほとんどの先行結果は一様ではない、すなわち、すべての$mathbfx*$に対してではなく、固定された$mathbfx*$に対して高い確率で保持される。
本フレームワークはGCSに1ビット/一様量子化観測と単一インデックスモデルを標準例として適用する。
また、指標集合が計量エントロピーが低い製品プロセスに対して、より厳密な境界を生み出す濃度不等式も開発する。
論文 参考訳(メタデータ) (2023-09-25T17:54:19Z) - A Unified Scheme of ResNet and Softmax [8.556540804058203]
回帰問題を理論的に解析する: $| langle exp(Ax) + A x, bf 1_n rangle-1 ( exp(Ax) + Ax )
この回帰問題は、ソフトマックス回帰とResNetを組み合わせた統一的なスキームである。
論文 参考訳(メタデータ) (2023-09-23T21:41:01Z) - Spatially heterogeneous learning by a deep student machine [0.0]
多数の調整可能なパラメータを持つディープニューラルネットワーク(DNN)は、ほとんどブラックボックスのままである。
我々は,教師学生設定と呼ばれる統計力学手法を用いて,NL$パーセプトロンと$c$入力からなるDNNと深度$L$の教師学習について検討した。
N gg c gg 1$ and $M gg 1$ with fixed $alpha=M/c$ using the replica method developed in (H. Yoshino,)
論文 参考訳(メタデータ) (2023-02-15T01:09:03Z) - High-dimensional Asymptotics of Feature Learning: How One Gradient Step
Improves the Representation [89.21686761957383]
2層ネットワークにおける第1層パラメータ $boldsymbolW$ の勾配降下ステップについて検討した。
我々の結果は、一つのステップでもランダムな特徴に対してかなりの優位性が得られることを示した。
論文 参考訳(メタデータ) (2022-05-03T12:09:59Z) - Locality defeats the curse of dimensionality in convolutional
teacher-student scenarios [69.2027612631023]
学習曲線指数$beta$を決定する上で,局所性が重要であることを示す。
我々は、自然の仮定を用いて、トレーニングセットのサイズに応じて減少するリッジでカーネルレグレッションを実行すると、リッジレスの場合と同じような学習曲線指数が得られることを証明して結論付けた。
論文 参考訳(メタデータ) (2021-06-16T08:27:31Z) - Model-Based Reinforcement Learning with Value-Targeted Regression [48.92439657407732]
我々は、遷移モデル $P$ が既知のモデルの族 $mathcalP$ に属する有限水平エピソード RL に焦点を当てる。
線形混合の特別な場合において、後悔束は $tildemathcalO(dsqrtH3T)$ という形を取る。
論文 参考訳(メタデータ) (2020-06-01T17:47:53Z) - Learning nonlinear dynamical systems from a single trajectory [102.60042167341956]
我々は、$x_t+1=sigma(Thetastarx_t)+varepsilon_t$という形の非線形力学系を学ぶアルゴリズムを導入する。
最適なサンプル複雑性と線形ランニング時間を持つ単一軌道から重み行列$Thetastar$を復元するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-04-30T10:42:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。