論文の概要: The Expressive Power of Tuning Only the Normalization Layers
- arxiv url: http://arxiv.org/abs/2302.07937v2
- Date: Tue, 4 Jul 2023 21:33:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 23:05:29.543523
- Title: The Expressive Power of Tuning Only the Normalization Layers
- Title(参考訳): 正規化層のみをチューニングする表現力
- Authors: Angeliki Giannou, Shashank Rajput, Dimitris Papailiopoulos
- Abstract要約: BatchやLayer-Normalizationといった特徴正規化変換は、最先端のディープニューラルネットワークの必須要素となっている。
近年の微調整型大規模事前学習モデルの研究は、これらのアフィン変換のパラメータを調整するだけで下流タスクの精度が向上することを示している。
ランダムなReLUネットワークの場合、正規化層のみを微調整することで、$O(sqrttextwidth)$倍のターゲットネットワークを再構築できることを示す。
- 参考スコア(独自算出の注目度): 5.779559262502591
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feature normalization transforms such as Batch and Layer-Normalization have
become indispensable ingredients of state-of-the-art deep neural networks.
Recent studies on fine-tuning large pretrained models indicate that just tuning
the parameters of these affine transforms can achieve high accuracy for
downstream tasks. These findings open the questions about the expressive power
of tuning the normalization layers of frozen networks. In this work, we take
the first step towards this question and show that for random ReLU networks,
fine-tuning only its normalization layers can reconstruct any target network
that is $O(\sqrt{\text{width}})$ times smaller. We show that this holds even
for randomly sparsified networks, under sufficient overparameterization, in
agreement with prior empirical work.
- Abstract(参考訳): BatchやLayer-Normalizationといった特徴正規化変換は、最先端のディープニューラルネットワークの必須要素となっている。
近年の微調整型大規模事前学習モデルの研究は、これらのアフィン変換のパラメータを調整するだけで下流タスクの精度が向上することを示している。
これらの知見は、凍結ネットワークの正規化層をチューニングする表現力に関する疑問を提起する。
本稿では,この問題への第一歩として,ランダムなReLUネットワークにおいて,正規化層のみを微調整することで,$O(\sqrt{\text{width}})$倍のターゲットネットワークを再構築可能であることを示す。
従来の経験的作業と一致して、十分な過パラメータ化の下でランダムに分散されたネットワークであっても、これは成り立つことを示す。
関連論文リスト
- Normalization-Equivariant Neural Networks with Application to Image
Denoising [3.591122855617648]
本稿では,ニューラルネットの正規化-等分散が設計によって成り立つように適応する手法を提案する。
私たちの主張は、通常の畳み込み層だけでなく、すべての活性化関数も、ニューラルネットワークから完全に取り除くべきだということです。
画像復号化実験の結果、正規化等価ニューラルネットワークは、条件付けの改善に加えて、ノイズレベルをまたいだより優れた一般化をもたらすことが示された。
論文 参考訳(メタデータ) (2023-06-08T08:42:08Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Boosting Pruned Networks with Linear Over-parameterization [8.796518772724955]
構造化プルーニングは、高速な推論のためのチャネル(フィルタ)を減らし、実行時にフットプリントを低くすることで、ニューラルネットワークを圧縮する。
プルーニング後の精度を回復するため、細調整は通常、プルーニングネットワークに適用される。
そこで我々は,まず,細調整パラメータの数を増やすために,刈り込みネットワーク内のコンパクト層を線形に過剰にパラメータ化する手法を提案する。
論文 参考訳(メタデータ) (2022-04-25T05:30:26Z) - Improvements to Gradient Descent Methods for Quantum Tensor Network
Machine Learning [0.0]
任意のテンソルネットワークの初期化に成功したコピーノード方式を提案する。
本稿では、量子インスパイアされたテンソルネットワークモデルを生成する手法の組み合わせを示す数値的な結果を示す。
論文 参考訳(メタデータ) (2022-03-03T19:00:40Z) - The Sample Complexity of One-Hidden-Layer Neural Networks [57.6421258363243]
本研究では,スカラー値を持つ一層ネットワークのクラスとユークリッドノルムで有界な入力について検討する。
隠蔽層重み行列のスペクトルノルムの制御は、一様収束を保証するには不十分であることを示す。
スペクトルノルム制御が十分であることを示す2つの重要な設定を解析する。
論文 参考訳(メタデータ) (2022-02-13T07:12:02Z) - Backward Gradient Normalization in Deep Neural Networks [68.8204255655161]
ニューラルネットワークトレーニングにおける勾配正規化のための新しい手法を提案する。
勾配は、ネットワークアーキテクチャ内の特定の点で導入された正規化レイヤを使用して、後方通過中に再スケールされる。
非常に深いニューラルネットワークを用いたテストの結果、新しい手法が勾配ノルムを効果的に制御できることが示されている。
論文 参考訳(メタデータ) (2021-06-17T13:24:43Z) - Optimization Theory for ReLU Neural Networks Trained with Normalization
Layers [82.61117235807606]
ディープニューラルネットワークの成功は、部分的には正規化レイヤの使用によるものだ。
我々の分析は、正規化の導入がランドスケープをどのように変化させ、より高速なアクティベーションを実現するかを示している。
論文 参考訳(メタデータ) (2020-06-11T23:55:54Z) - Network Adjustment: Channel Search Guided by FLOPs Utilization Ratio [101.84651388520584]
本稿では,ネットワークの精度をFLOPの関数として考慮した,ネットワーク調整という新しいフレームワークを提案する。
標準画像分類データセットと幅広いベースネットワークの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2020-04-06T15:51:00Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。