論文の概要: Directional convergence and alignment in deep learning
- arxiv url: http://arxiv.org/abs/2006.06657v2
- Date: Mon, 26 Oct 2020 09:28:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 09:08:57.863219
- Title: Directional convergence and alignment in deep learning
- Title(参考訳): 深層学習における方向収束とアライメント
- Authors: Ziwei Ji and Matus Telgarsky
- Abstract要約: 交差エントロピーと関連する分類損失の最小化は無限大であるが, ネットワーク重みは勾配流により方向収束することを示した。
この証明は、ReLU、最大プール、線形および畳み込み層を許容する深い均質ネットワークに対して成り立つ。
- 参考スコア(独自算出の注目度): 38.73942298289583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we show that although the minimizers of cross-entropy and
related classification losses are off at infinity, network weights learned by
gradient flow converge in direction, with an immediate corollary that network
predictions, training errors, and the margin distribution also converge. This
proof holds for deep homogeneous networks -- a broad class of networks allowing
for ReLU, max-pooling, linear, and convolutional layers -- and we additionally
provide empirical support not just close to the theory (e.g., the AlexNet), but
also on non-homogeneous networks (e.g., the DenseNet). If the network further
has locally Lipschitz gradients, we show that these gradients also converge in
direction, and asymptotically align with the gradient flow path, with
consequences on margin maximization, convergence of saliency maps, and a few
other settings. Our analysis complements and is distinct from the well-known
neural tangent and mean-field theories, and in particular makes no requirements
on network width and initialization, instead merely requiring perfect
classification accuracy. The proof proceeds by developing a theory of unbounded
nonsmooth Kurdyka-{\L}ojasiewicz inequalities for functions definable in an
o-minimal structure, and is also applicable outside deep learning.
- Abstract(参考訳): 本稿では,クロスエントロピーと関連する分類損失の最小化要因は無限大であるが,勾配流によって学習されたネットワーク重みは,ネットワーク予測やトレーニングエラー,マージン分布も収束する直列の系で収束することを示す。
この証明は、ReLU、最大プーリング、線形および畳み込み層を許容する幅広いネットワークのクラスであるディープ・ホモジニアス・ネットワーク(例えば、AlexNet)と近接するだけでなく、非ホモジニアス・ネットワーク(例えば、DenseNet)上でも経験的サポートを提供する。
ネットワークがさらに局所的なリプシッツ勾配を持つ場合、これらの勾配もまた方向収束し、漸近的に勾配流路と一致し、マージンの最大化、サリエンシマップの収束、その他いくつかの設定に影響を及ぼす。
特にネットワーク幅や初期化は必要とせず、単に完全な分類精度を必要とするだけである。
この証明は、o-最小構造で定義可能な関数に対する非有界非スムート・クルディカ・ハイル・オジャシェヴィッツの不等式の理論を発展させ、深層学習の外でも適用できる。
関連論文リスト
- Understanding the training of infinitely deep and wide ResNets with Conditional Optimal Transport [26.47265060394168]
深部ニューラルネットワークの勾配流は遠距離で任意に収束することを示す。
これは空間における有限幅の勾配距離の理論に依存する。
論文 参考訳(メタデータ) (2024-03-19T16:34:31Z) - Towards Training Without Depth Limits: Batch Normalization Without
Gradient Explosion [83.90492831583997]
バッチ正規化ネットワークは,信号伝搬特性を最適に保ちつつ,爆発的な勾配を回避することができることを示す。
線形アクティベーションとバッチ正規化を備えた多層パーセプトロン(MLP)を用いて,有界深度を実証する。
また、ある非線形活性化に対して同じ特性を経験的に達成する活性化整形法を設計する。
論文 参考訳(メタデータ) (2023-10-03T12:35:02Z) - On the Effective Number of Linear Regions in Shallow Univariate ReLU
Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。
我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T16:57:10Z) - Training invariances and the low-rank phenomenon: beyond linear networks [44.02161831977037]
線形分離可能なデータに対して、ロジスティックあるいは指数損失の深い線形ネットワークを訓練すると、重みは1$の行列に収束する。
非線形ReLU活性化フィードフォワードネットワークに対して、低ランク現象が厳格に証明されたのはこれが初めてである。
我々の証明は、あるパラメータの方向収束の下で重みが一定である多重線型関数と別のReLUネットワークへのネットワークの特定の分解に依存している。
論文 参考訳(メタデータ) (2022-01-28T07:31:19Z) - Global Convergence Analysis of Deep Linear Networks with A One-neuron
Layer [18.06634056613645]
2次損失下で1つのニューロンを持つ層を有するディープ線形ネットワークを最適化することを検討する。
流下における任意の出発点を持つ軌道の収束点を記述する。
我々は,大域勾配器に段階的に収束する軌道の収束率を示す。
論文 参考訳(メタデータ) (2022-01-08T04:44:59Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - Learning Connectivity of Neural Networks from a Topological Perspective [80.35103711638548]
本稿では,ネットワークを解析のための完全なグラフに表現するためのトポロジ的視点を提案する。
接続の規模を反映したエッジに学習可能なパラメータを割り当てることにより、学習プロセスを異なる方法で行うことができる。
この学習プロセスは既存のネットワークと互換性があり、より大きな検索空間と異なるタスクへの適応性を持っている。
論文 参考訳(メタデータ) (2020-08-19T04:53:31Z) - Generalization bound of globally optimal non-convex neural network
training: Transportation map estimation by infinite dimensional Langevin
dynamics [50.83356836818667]
本稿では,ディープラーニングの最適化を一般化誤差と関連づけて解析する理論フレームワークを提案する。
ニューラルネットワーク最適化分析のための平均場理論やニューラル・タンジェント・カーネル理論のような既存のフレームワークは、そのグローバル収束を示すために、ネットワークの無限幅の限界を取る必要がある。
論文 参考訳(メタデータ) (2020-07-11T18:19:50Z) - Implicit Bias of Gradient Descent for Wide Two-layer Neural Networks
Trained with the Logistic Loss [0.0]
勾配に基づく手法によるロジスティック(クロスエントロピー)損失を最小限に抑えるために訓練されたニューラルネットワークは、多くの教師付き分類タスクでうまく機能する。
我々は、均一な活性化を伴う無限に広い2層ニューラルネットワークのトレーニングと一般化の挙動を解析する。
論文 参考訳(メタデータ) (2020-02-11T15:42:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。