論文の概要: Distance-Based Regularisation of Deep Networks for Fine-Tuning
- arxiv url: http://arxiv.org/abs/2002.08253v3
- Date: Fri, 15 Jan 2021 16:05:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 13:08:43.615030
- Title: Distance-Based Regularisation of Deep Networks for Fine-Tuning
- Title(参考訳): ファインチューニングのための深部ネットワークの距離ベース規則化
- Authors: Henry Gouk, Timothy M. Hospedales, Massimiliano Pontil
- Abstract要約: 我々は,仮説クラスを,初期訓練前の重みを中心にした小さな球面に制約するアルゴリズムを開発した。
実験的な評価は、我々のアルゴリズムがうまく機能していることを示し、理論的な結果を裏付けるものである。
- 参考スコア(独自算出の注目度): 116.71288796019809
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate approaches to regularisation during fine-tuning of deep neural
networks. First we provide a neural network generalisation bound based on
Rademacher complexity that uses the distance the weights have moved from their
initial values. This bound has no direct dependence on the number of weights
and compares favourably to other bounds when applied to convolutional networks.
Our bound is highly relevant for fine-tuning, because providing a network with
a good initialisation based on transfer learning means that learning can modify
the weights less, and hence achieve tighter generalisation. Inspired by this,
we develop a simple yet effective fine-tuning algorithm that constrains the
hypothesis class to a small sphere centred on the initial pre-trained weights,
thus obtaining provably better generalisation performance than conventional
transfer learning. Empirical evaluation shows that our algorithm works well,
corroborating our theoretical results. It outperforms both state of the art
fine-tuning competitors, and penalty-based alternatives that we show do not
directly constrain the radius of the search space.
- Abstract(参考訳): 深層ニューラルネットワークの微調整における正規化へのアプローチについて検討する。
まず、初期値から重みが移動した距離を用いて、Rademacher複雑性に基づいたニューラルネットワークの一般化を提供する。
この境界は重みの個数に直接依存せず、畳み込みネットワークに適用した場合の他の境界と好ましく比較される。
転送学習に基づくネットワークに優れた初期化を提供するということは、学習が重みを減らし、より厳密な一般化を達成できることを意味します。
そこで本研究では,初期学習重みに着目した小さな球体に仮説クラスを制約し,従来の転送学習よりも優れた一般化性能を得る,単純かつ効果的な微調整アルゴリズムを開発した。
経験的評価の結果, アルゴリズムは良好に動作し, 理論的結果と相関していることがわかった。
これは、検索空間の半径を直接制限しないことを示すペナルティベースの代替案と、芸術的な微調整の競争相手の双方を上回っている。
関連論文リスト
- Concurrent Training and Layer Pruning of Deep Neural Networks [0.0]
トレーニングの初期段階において、ニューラルネットワークの無関係な層を特定し、排除できるアルゴリズムを提案する。
本研究では,非線形区間を切断した後にネットワークを流れる情報の流れを,非線形ネットワーク区間の周囲の残差接続を用いた構造を用いる。
論文 参考訳(メタデータ) (2024-06-06T23:19:57Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - On the generalization of learning algorithms that do not converge [54.122745736433856]
ディープラーニングの一般化解析は、訓練が一定の点に収束すると仮定するのが一般的である。
最近の結果は、実際には勾配降下に最適化されたディープニューラルネットワークの重みは、しばしば無限に振動することを示している。
論文 参考訳(メタデータ) (2022-08-16T21:22:34Z) - Robust Learning of Parsimonious Deep Neural Networks [0.0]
本稿では,ニューラルネットワークにおける無関係構造を識別・排除できる同時学習および刈り取りアルゴリズムを提案する。
最適選択に欠かせないパラメータに対して,新しい超優先度分布を導出する。
我々は,提案アルゴリズムをMNISTデータセット上で評価し,完全連結型および畳み込み型LeNetアーキテクチャを用いた。
論文 参考訳(メタデータ) (2022-05-10T03:38:55Z) - Analytically Tractable Inference in Deep Neural Networks [0.0]
Tractable Approximate Inference (TAGI)アルゴリズムは、浅いフルコネクテッドニューラルネットワークのバックプロパゲーションに対する実行可能でスケーラブルな代替手段であることが示された。
従来のディープニューラルネットワークアーキテクチャをトレーニングするために、TAGIがバックプロパゲーションのパフォーマンスとどのように一致するか、または上回るかを実証しています。
論文 参考訳(メタデータ) (2021-03-09T14:51:34Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - Fiedler Regularization: Learning Neural Networks with Graph Sparsity [6.09170287691728]
ニューラルネットワークの基盤となるグラフィカル構造を包含し、尊重する、ディープラーニングのための新しい正規化アプローチを導入する。
我々は、ニューラルネットワークの基盤となるグラフのFiedler値を正規化のツールとして使うことを提案する。
論文 参考訳(メタデータ) (2020-03-02T16:19:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。