論文の概要: Memorization Capacity for Additive Fine-Tuning with Small ReLU Networks
- arxiv url: http://arxiv.org/abs/2408.00359v2
- Date: Mon, 19 Aug 2024 14:15:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 01:49:20.487825
- Title: Memorization Capacity for Additive Fine-Tuning with Small ReLU Networks
- Title(参考訳): 小型ReLUネットワークを用いた付加ファインチューニングのためのメモリ化能力
- Authors: Jy-yong Sohn, Dohyun Kwon, Seoyeon An, Kangwook Lee,
- Abstract要約: Fine-Tuning Capacity (FTC)は、ニューラルネットワークが微調整できるサンプルの最大数として定義される。
2層ネットワークの$m=Theta(N)$ニューロンと3層ネットワークの$m=Theta(sqrtN)$ニューロンで、$K$がいくら大きいとしても、$N$サンプルを微調整できることが示される。
- 参考スコア(独自算出の注目度): 16.320374162259117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning large pre-trained models is a common practice in machine learning applications, yet its mathematical analysis remains largely unexplored. In this paper, we study fine-tuning through the lens of memorization capacity. Our new measure, the Fine-Tuning Capacity (FTC), is defined as the maximum number of samples a neural network can fine-tune, or equivalently, as the minimum number of neurons ($m$) needed to arbitrarily change $N$ labels among $K$ samples considered in the fine-tuning process. In essence, FTC extends the memorization capacity concept to the fine-tuning scenario. We analyze FTC for the additive fine-tuning scenario where the fine-tuned network is defined as the summation of the frozen pre-trained network $f$ and a neural network $g$ (with $m$ neurons) designed for fine-tuning. When $g$ is a ReLU network with either 2 or 3 layers, we obtain tight upper and lower bounds on FTC; we show that $N$ samples can be fine-tuned with $m=\Theta(N)$ neurons for 2-layer networks, and with $m=\Theta(\sqrt{N})$ neurons for 3-layer networks, no matter how large $K$ is. Our results recover the known memorization capacity results when $N = K$ as a special case.
- Abstract(参考訳): 微調整された大規模な事前学習モデルは、機械学習アプリケーションでは一般的なプラクティスであるが、その数学的解析はほとんど探索されていない。
本稿では,記憶能力のレンズによる微調整について検討する。
私たちの新しい測定基準であるFine-Tuning Capacity(FTC)は、ニューラルネットワークが微調整できるサンプルの最大数、または同等に、微調整プロセスで考慮されたサンプルのうち、N$のラベルを任意に変更するために必要なニューロンの最小数として定義される。
基本的にFTCは、記憶能力の概念を微調整シナリオにまで拡張している。
我々は、微調整ネットワークを凍結事前訓練ネットワーク$f$と、微調整用に設計されたニューラルネットワーク$g$($m$ニューロンを含む)の総和として定義する追加的な微調整シナリオについて、FTCの分析を行う。
g$ が 2 層か 3 層のいずれかの ReLU ネットワークである場合、FTC 上では、厳密な上層と下層の境界が得られます。我々は、$N$ サンプルを 2 層ネットワーク用の $m=\Theta(N)$ ニューロンと、$m=\Theta(\sqrt{N})$ ニューロンで微調整できることを示します。
その結果,特殊ケースとして$N = K$の場合に,既知の記憶能力が回復することがわかった。
関連論文リスト
- Bayesian Inference with Deep Weakly Nonlinear Networks [57.95116787699412]
我々は,完全連結ニューラルネットワークによるベイズ推定が解けることを示す物理レベルの厳密さを示す。
我々はモデルエビデンスを計算し、任意の温度で1/N$で任意の順序に後続する手法を提供する。
論文 参考訳(メタデータ) (2024-05-26T17:08:04Z) - SGD Finds then Tunes Features in Two-Layer Neural Networks with
near-Optimal Sample Complexity: A Case Study in the XOR problem [1.3597551064547502]
本研究では,2層ニューラルネットワーク上でのミニバッチ降下勾配(SGD)の最適化過程について考察する。
二次 XOR' 関数 $y = -x_ix_j$ でラベル付けされた $d$-dimensional Boolean hypercube から得られるデータから、人口誤差 $o(1)$ と $d :textpolylog(d)$ のサンプルをトレーニングすることが可能であることを証明した。
論文 参考訳(メタデータ) (2023-09-26T17:57:44Z) - Generalization Ability of Wide Neural Networks on $\mathbb{R}$ [8.508360765158326]
広い2層ReLUニューラルネットワークのmathbbR$上での一般化能力について検討した。
$i)$幅$mrightarrowinfty$のとき、ニューラルネットワークカーネル(NNK)がNTKに均一に収束すると、$ii)$$$$K_1$のRKHSに対する回帰の最小値が$n-2/3$;$iii)$ 広義のニューラルネットワークをトレーニングする際に早期停止戦略を採用する場合、$ivとなる。
論文 参考訳(メタデータ) (2023-02-12T15:07:27Z) - The Onset of Variance-Limited Behavior for Networks in the Lazy and Rich
Regimes [75.59720049837459]
無限幅挙動からこの分散制限状態への遷移をサンプルサイズ$P$とネットワーク幅$N$の関数として検討する。
有限サイズ効果は、ReLUネットワークによる回帰のために、$P* sim sqrtN$の順序で非常に小さなデータセットに関係があることが分かる。
論文 参考訳(メタデータ) (2022-12-23T04:48:04Z) - When Expressivity Meets Trainability: Fewer than $n$ Neurons Can Work [59.29606307518154]
幅が$m geq 2n/d$($d$は入力次元)である限り、その表現性は強く、すなわち、訓練損失がゼロの少なくとも1つの大域最小化器が存在することを示す。
また、実現可能な領域がよい局所領域であるような制約付き最適化の定式化も検討し、すべてのKKT点がほぼ大域最小値であることを示す。
論文 参考訳(メタデータ) (2022-10-21T14:41:26Z) - On the Neural Tangent Kernel Analysis of Randomly Pruned Neural Networks [91.3755431537592]
ニューラルネットワークのニューラルカーネル(NTK)に重みのランダムプルーニングが及ぼす影響について検討する。
特に、この研究は、完全に接続されたニューラルネットワークとそのランダムに切断されたバージョン間のNTKの等価性を確立する。
論文 参考訳(メタデータ) (2022-03-27T15:22:19Z) - Neural Capacitance: A New Perspective of Neural Network Selection via
Edge Dynamics [85.31710759801705]
現在の実践は、性能予測のためのモデルトレーニングにおいて高価な計算コストを必要とする。
本稿では,学習中のシナプス接続(エッジ)上の制御ダイナミクスを解析し,ニューラルネットワーク選択のための新しいフレームワークを提案する。
我々のフレームワークは、ニューラルネットワークトレーニング中のバックプロパゲーションがシナプス接続の動的進化と等価であるという事実に基づいて構築されている。
論文 参考訳(メタデータ) (2022-01-11T20:53:15Z) - Does Preprocessing Help Training Over-parameterized Neural Networks? [19.64638346701198]
我々は,$Omega(mnd)$バリアをバイパスする2つの新しい前処理手法を提案する。
本研究は,これまでに確立された高速訓練法について理論的考察を行った。
論文 参考訳(メタデータ) (2021-10-09T18:16:23Z) - The Rate of Convergence of Variation-Constrained Deep Neural Networks [35.393855471751756]
変動制約のあるニューラルネットワークのクラスは、任意に小さな定数$delta$に対して、ほぼパラメトリックレート$n-1/2+delta$を達成することができることを示す。
その結果、滑らかな関数の近似に必要な神経機能空間は、しばしば知覚されるものほど大きくない可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-22T21:28:00Z) - Towards Understanding Hierarchical Learning: Benefits of Neural
Representations [160.33479656108926]
この研究で、中間的神経表現がニューラルネットワークにさらなる柔軟性をもたらすことを実証する。
提案手法は, 生の入力と比較して, サンプルの複雑度を向上できることを示す。
この結果から, 深度が深層学習においてなぜ重要かという新たな視点が得られた。
論文 参考訳(メタデータ) (2020-06-24T02:44:54Z) - Network size and weights size for memorization with two-layers neural
networks [15.333300054767726]
本稿では,ニューロンの複雑な再結合をベースとしたReLUネットワークの新しいトレーニング手順を提案する。
Oleft(fracnd cdot fraclog(1/epsilon)epsilonright)$のニューロンと、体重のほぼ最適サイズの両方で近似記憶を示す。
論文 参考訳(メタデータ) (2020-06-04T13:44:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。