論文の概要: A Mathematical Principle of Deep Learning: Learn the Geodesic Curve in
the Wasserstein Space
- arxiv url: http://arxiv.org/abs/2102.09235v1
- Date: Thu, 18 Feb 2021 09:37:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-19 14:30:31.454295
- Title: A Mathematical Principle of Deep Learning: Learn the Geodesic Curve in
the Wasserstein Space
- Title(参考訳): 深層学習の数学的原理:Wasserstein空間における幾何学的曲線の学習
- Authors: Kuo Gai and Shihua Zhang
- Abstract要約: 我々は,ディープニューラルネットワーク(dnn)と動的システムの接続を構築する。
最適輸送理論を潜ることにより、ウェイセルシュタイン空間の測地線曲線を学習しようとする重み減衰を持つDNNが見つかる。
深層学習の数学的原理は、ワッサーシュタイン空間の測地線曲線を学ぶことである。
- 参考スコア(独自算出の注目度): 2.66512000865131
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies revealed the mathematical connection of deep neural network
(DNN) and dynamic system. However, the fundamental principle of DNN has not
been fully characterized with dynamic system in terms of optimization and
generalization. To this end, we build the connection of DNN and continuity
equation where the measure is conserved to model the forward propagation
process of DNN which has not been addressed before. DNN learns the
transformation of the input distribution to the output one. However, in the
measure space, there are infinite curves connecting two distributions. Which
one can lead to good optimization and generaliztion for DNN? By diving the
optimal transport theory, we find DNN with weight decay attempts to learn the
geodesic curve in the Wasserstein space, which is induced by the optimal
transport map. Compared with plain network, ResNet is a better approximation to
the geodesic curve, which explains why ResNet can be optimized and generalize
better. Numerical experiments show that the data tracks of both plain network
and ResNet tend to be line-shape in term of line-shape score (LSS), and the map
learned by ResNet is closer to the optimal transport map in term of optimal
transport score (OTS). In a word, we conclude a mathematical principle of deep
learning is to learn the geodesic curve in the Wasserstein space; and deep
learning is a great engineering realization of continuous transformation in
high-dimensional space.
- Abstract(参考訳): 最近の研究では、ディープニューラルネットワーク(DNN)と動的システムの数学的接続が明らかになった。
しかし、DNNの基本原理は、最適化と一般化の観点から、動的システムを完全に特徴づけていない。
そのために、DNNの前方伝播過程をモデル化するために、測定が保存されているDNNと連続方程式の接続を構築します。
DNNは、入力分布から出力分布への変換を学習する。
しかし測度空間では、2つの分布を接続する無限曲線が存在する。
どちらがDNNの最適化と一般化につながりますか?
最適輸送理論を掘り下げることで、重量減衰を持つdnnは、最適輸送写像によって誘導されるワッサーシュタイン空間の測地線曲線を学習しようとする。
普通のネットワークと比較して、ResNetはジオデジック曲線に対するより良い近似であり、ResNetが最適化され、より一般化できる理由を説明します。
数値実験により、プレーンネットワークとresnetのデータトラックは線状スコア(lss)の項で線状になりがちであり、resnetによって学習されたマップは最適なトランスポートスコア(ots)の項で最適なトランスポートマップに近いことが示されている。
一言で言えば、深層学習の数学的原理は、ワッサースタイン空間における測地線曲線を学習することであり、深層学習は高次元空間における連続変換の素晴らしいエンジニアリング実現である。
関連論文リスト
- Deep Learning as Ricci Flow [38.27936710747996]
ディープニューラルネットワーク(DNN)は、複雑なデータの分布を近似する強力なツールである。
分類タスク中のDNNによる変換は、ハミルトンのリッチ流下で期待されるものと類似していることを示す。
本研究の成果は, 微分幾何学や離散幾何学から, 深層学習における説明可能性の問題まで, ツールの利用を動機づけるものである。
論文 参考訳(メタデータ) (2024-04-22T15:12:47Z) - Deep Networks Always Grok and Here is Why [15.327649172531606]
グローキング(英: Grokking)または遅延一般化(英: delay generalization)とは、ディープニューラルネットワーク(DNN)における一般化が、ほぼゼロのトレーニングエラーを達成してから長く経過する現象である。
我々は、グルーキングが実際ずっと広く、幅広い実践的な設定で実現されていることを実証した。
論文 参考訳(メタデータ) (2024-02-23T18:59:31Z) - From Alexnet to Transformers: Measuring the Non-linearity of Deep Neural Networks with Affine Optimal Transport [32.39176908225668]
本稿では,DNNの非線形性シグネチャの概念を紹介する。これはディープニューラルネットワークの非線形性を測定するための,理論上初めての音響解である。
提案した非線形署名の実用性を明らかにするための実験結果について述べる。
論文 参考訳(メタデータ) (2023-10-17T17:50:22Z) - Speed Limits for Deep Learning [67.69149326107103]
熱力学の最近の進歩は、初期重量分布から完全に訓練されたネットワークの最終分布への移動速度の制限を可能にする。
線形および線形化可能なニューラルネットワークに対して,これらの速度制限に対する解析式を提供する。
NTKスペクトルとラベルのスペクトル分解に関するいくつかの妥当なスケーリング仮定を考えると、学習はスケーリングの意味で最適である。
論文 参考訳(メタデータ) (2023-07-27T06:59:46Z) - Analysis of Convolutions, Non-linearity and Depth in Graph Neural
Networks using Neural Tangent Kernel [8.824340350342512]
グラフニューラルネットワーク(GNN)は、隣接するノードを集約することで、データの構造情報を活用するように設計されている。
半教師付きノード分類設定におけるグラフニューラルカーネルを用いて,GNNアーキテクチャの異なる側面の影響を理論的に解析する。
i) 線形ネットワークはReLUネットワークと同じくらいのクラス情報をキャプチャし、 (ii) 行正規化は、他の畳み込みよりも基礎となるクラス構造を保存し、 (iii) 過スムージングによりネットワーク深さが低下し、 (iv) スキップ接続は無限の深さでもクラス情報を保持し、過スムーズを除去する。
論文 参考訳(メタデータ) (2022-10-18T12:28:37Z) - Deep Architecture Connectivity Matters for Its Convergence: A
Fine-Grained Analysis [94.64007376939735]
我々は、勾配降下訓練におけるディープニューラルネットワーク(DNN)の収束に対する接続パターンの影響を理論的に特徴づける。
接続パターンの単純なフィルタリングによって、評価対象のモデルの数を削減できることが示される。
論文 参考訳(メタデータ) (2022-05-11T17:43:54Z) - Wide and Deep Graph Neural Network with Distributed Online Learning [174.8221510182559]
グラフニューラルネットワーク(GNN)は、ネットワークデータから表現を学習するための、自然に分散したアーキテクチャである。
オンライン学習は、この問題を克服するためにテスト時にGNNを再トレーニングするために利用することができる。
本稿では,分散オンライン学習機構で更新可能な新しいアーキテクチャであるWide and Deep GNN(WD-GNN)を開発する。
論文 参考訳(メタデータ) (2021-07-19T23:56:48Z) - Optimization of Graph Neural Networks: Implicit Acceleration by Skip
Connections and More Depth [57.10183643449905]
グラフニューラルネットワーク(GNN)は表現力と一般化のレンズから研究されている。
GNNのダイナミクスを深部スキップ最適化により研究する。
本研究は,GNNの成功に対する最初の理論的支援を提供する。
論文 参考訳(メタデータ) (2021-05-10T17:59:01Z) - Fast Learning of Graph Neural Networks with Guaranteed Generalizability:
One-hidden-layer Case [93.37576644429578]
グラフニューラルネットワーク(GNN)は、グラフ構造化データから実際に学習する上で、近年大きな進歩を遂げている。
回帰問題と二項分類問題の両方に隠れ層を持つGNNの理論的に基底的な一般化可能性解析を行う。
論文 参考訳(メタデータ) (2020-06-25T00:45:52Z) - Fractional Deep Neural Network via Constrained Optimization [0.0]
本稿では,ディープニューラルネットワーク(DNN)のための新しいアルゴリズムフレームワークを提案する。
Fractional-DNNは、時間非線形常微分方程式(ODE)における分数の時間差分化と見なすことができる。
論文 参考訳(メタデータ) (2020-04-01T21:58:21Z) - Self-Directed Online Machine Learning for Topology Optimization [58.920693413667216]
自己指向型オンライン学習最適化は、ディープニューラルネットワーク(DNN)と有限要素法(FEM)計算を統合している。
本アルゴリズムは, コンプライアンスの最小化, 流体構造最適化, 伝熱促進, トラス最適化の4種類の問題によって検証された。
その結果, 直接使用法と比較して計算時間を2~5桁削減し, 実験で検証した全ての最先端アルゴリズムより優れていた。
論文 参考訳(メタデータ) (2020-02-04T20:00:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。