論文の概要: A Unified Paths Perspective for Pruning at Initialization
- arxiv url: http://arxiv.org/abs/2101.10552v1
- Date: Tue, 26 Jan 2021 04:29:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-13 19:49:14.516087
- Title: A Unified Paths Perspective for Pruning at Initialization
- Title(参考訳): 初期化時の散布のための統一パス
- Authors: Thomas Gebhart, Udit Saxena, Paul Schrater
- Abstract要約: ニューラルタンジェントカーネルの分解におけるデータ非依存要因としてパスカーネルを紹介します。
パスカーネルのグローバル構造を効率的に計算できることを示します。
データ不在時におけるネットワークのトレーニングと一般化パフォーマンスの近似におけるこの構造の使用を分析します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A number of recent approaches have been proposed for pruning neural network
parameters at initialization with the goal of reducing the size and
computational burden of models while minimally affecting their training
dynamics and generalization performance. While each of these approaches have
some amount of well-founded motivation, a rigorous analysis of the effect of
these pruning methods on network training dynamics and their formal
relationship to each other has thus far received little attention. Leveraging
recent theoretical approximations provided by the Neural Tangent Kernel, we
unify a number of popular approaches for pruning at initialization under a
single path-centric framework. We introduce the Path Kernel as the
data-independent factor in a decomposition of the Neural Tangent Kernel and
show the global structure of the Path Kernel can be computed efficiently. This
Path Kernel decomposition separates the architectural effects from the
data-dependent effects within the Neural Tangent Kernel, providing a means to
predict the convergence dynamics of a network from its architecture alone. We
analyze the use of this structure in approximating training and generalization
performance of networks in the absence of data across a number of
initialization pruning approaches. Observing the relationship between input
data and paths and the relationship between the Path Kernel and its natural
norm, we additionally propose two augmentations of the SynFlow algorithm for
pruning at initialization.
- Abstract(参考訳): モデルのサイズと計算負荷を低減し、トレーニングダイナミクスと一般化性能に最小限の影響を与えながら、初期化時にニューラルネットワークパラメータを刈り取るための、最近の多くのアプローチが提案されている。
それぞれのアプローチにはある程度のモチベーションがあるが、ネットワークトレーニングのダイナミクスに対するプルーニング手法の効果の厳密な分析や、両者の形式的関係は今のところほとんど注目されていない。
Neural Tangent Kernelによる最近の理論的近似を活用して、私たちは単一のパス中心のフレームワークで初期化時に引き裂くための多くの一般的なアプローチを統一します。
ニューラルタンジェントカーネルの分解におけるデータ非依存因子としてパスカーネルを導入し,パスカーネルのグローバル構造を効率的に計算可能であることを示す。
このパスカーネル分解は、アーキテクチャ効果とNeural Tangent Kernel内のデータ依存効果を分離し、ネットワークの収束ダイナミクスをアーキテクチャのみから予測する手段を提供する。
多数の初期化プルーニングアプローチにまたがるデータの欠如におけるネットワークのトレーニングと一般化パフォーマンスの近似におけるこの構造の使用を分析します。
入力データとパスの関係とパスカーネルとその自然ノルムとの関係を観察し、初期化時にプルーニングするためのSynFlowアルゴリズムの2つの拡張を提案します。
関連論文リスト
- Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - Simple initialization and parametrization of sinusoidal networks via
their kernel bandwidth [92.25666446274188]
従来の活性化機能を持つネットワークの代替として、活性化を伴う正弦波ニューラルネットワークが提案されている。
まず,このような正弦波ニューラルネットワークの簡易版を提案する。
次に、ニューラルタンジェントカーネルの観点からこれらのネットワークの挙動を分析し、そのカーネルが調整可能な帯域幅を持つ低域フィルタを近似することを実証する。
論文 参考訳(メタデータ) (2022-11-26T07:41:48Z) - A Recursively Recurrent Neural Network (R2N2) Architecture for Learning
Iterative Algorithms [64.3064050603721]
本研究では,リカレントニューラルネットワーク (R2N2) にランゲ・クッタニューラルネットワークを一般化し,リカレントニューラルネットワークを最適化した反復アルゴリズムの設計を行う。
本稿では, 線形方程式系に対するクリロフ解法, 非線形方程式系に対するニュートン・クリロフ解法, 常微分方程式に対するルンゲ・クッタ解法と類似の繰り返しを計算問題クラスの入力・出力データに対して提案した超構造内における重みパラメータの正規化について述べる。
論文 参考訳(メタデータ) (2022-11-22T16:30:33Z) - Self-Consistent Dynamical Field Theory of Kernel Evolution in Wide
Neural Networks [18.27510863075184]
勾配流を学習した無限幅ニューラルネットワークにおける特徴学習を,自己整合力学場理論を用いて解析する。
本研究では,各層に隠れた単位活性化と勾配を示す内積カーネルである決定論的動的順序パラメータの集合を,時間点のペアで構築する。
論文 参考訳(メタデータ) (2022-05-19T16:10:10Z) - Robust Learning of Parsimonious Deep Neural Networks [0.0]
本稿では,ニューラルネットワークにおける無関係構造を識別・排除できる同時学習および刈り取りアルゴリズムを提案する。
最適選択に欠かせないパラメータに対して,新しい超優先度分布を導出する。
我々は,提案アルゴリズムをMNISTデータセット上で評価し,完全連結型および畳み込み型LeNetアーキテクチャを用いた。
論文 参考訳(メタデータ) (2022-05-10T03:38:55Z) - Training Integrable Parameterizations of Deep Neural Networks in the
Infinite-Width Limit [0.0]
大きな幅のダイナミクスは実世界のディープネットワークに関する実践的な洞察を導いてきた。
2層ニューラルネットワークでは、トレーニングされたモデルの性質が初期ランダムウェイトの大きさによって根本的に変化することが理解されている。
この自明な振る舞いを避けるための様々な手法を提案し、その結果のダイナミクスを詳細に分析する。
論文 参考訳(メタデータ) (2021-10-29T07:53:35Z) - Generalization bound of globally optimal non-convex neural network
training: Transportation map estimation by infinite dimensional Langevin
dynamics [50.83356836818667]
本稿では,ディープラーニングの最適化を一般化誤差と関連づけて解析する理論フレームワークを提案する。
ニューラルネットワーク最適化分析のための平均場理論やニューラル・タンジェント・カーネル理論のような既存のフレームワークは、そのグローバル収束を示すために、ネットワークの無限幅の限界を取る必要がある。
論文 参考訳(メタデータ) (2020-07-11T18:19:50Z) - An Ode to an ODE [78.97367880223254]
我々は、O(d) 群上の行列フローに応じて主フローの時間依存パラメータが進化する ODEtoODE と呼ばれるニューラルODE アルゴリズムの新しいパラダイムを提案する。
この2つの流れのネストされたシステムは、訓練の安定性と有効性を提供し、勾配の消滅・爆発問題を確実に解決する。
論文 参考訳(メタデータ) (2020-06-19T22:05:19Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z) - Fiedler Regularization: Learning Neural Networks with Graph Sparsity [6.09170287691728]
ニューラルネットワークの基盤となるグラフィカル構造を包含し、尊重する、ディープラーニングのための新しい正規化アプローチを導入する。
我々は、ニューラルネットワークの基盤となるグラフのFiedler値を正規化のツールとして使うことを提案する。
論文 参考訳(メタデータ) (2020-03-02T16:19:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。