論文の概要: A Convergence result of a continuous model of deep learning via
\L{}ojasiewicz--Simon inequality
- arxiv url: http://arxiv.org/abs/2311.15365v1
- Date: Sun, 26 Nov 2023 17:44:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 18:09:11.496207
- Title: A Convergence result of a continuous model of deep learning via
\L{}ojasiewicz--Simon inequality
- Title(参考訳): L{}ojasiewicz-Simon不等式による連続的なディープラーニングモデルの収束結果
- Authors: Noboru Isobe
- Abstract要約: これは、ディープニューラルネットワーク(DNN)の連続的なモデルのプロセスを表現する、ワッサースタイン型フローに焦点をあてる。
まず、L2正則化下でのモデルの平均損失に対する存在arを確立する。
フロー最適化時の時間として,損失の傾きの存在を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study focuses on a Wasserstein-type gradient flow, which represents an
optimization process of a continuous model of a Deep Neural Network (DNN).
First, we establish the existence of a minimizer for an average loss of the
model under $L^2$-regularization. Subsequently, we show the existence of a
curve of maximal slope of the loss. Our main result is the convergence of flow
to a critical point of the loss as time goes to infinity. An essential aspect
of proving this result involves the establishment of the \L{}ojasiewicz--Simon
gradient inequality for the loss. We derive this inequality by assuming the
analyticity of NNs and loss functions. Our proofs offer a new approach for
analyzing the asymptotic behavior of Wasserstein-type gradient flows for
nonconvex functionals.
- Abstract(参考訳): 本研究では,Deep Neural Network (DNN) の連続モデルの最適化プロセスを表すWasserstein型勾配流に着目した。
まず, モデルの平均損失に対する最小化器の存在を, $l^2$-正規化の下で確立する。
その後、損失の最大傾斜曲線の存在を示す。
私たちの主な結果は、時間が無限になるにつれて、損失の臨界点への流れの収束です。
この結果を証明するための重要な側面は、損失に対する L{}ojasiewicz--シモン勾配の不等式を確立することである。
NNと損失関数の解析性を仮定することで、この不等式を導出する。
本証明は,非凸関数に対するwasserstein型勾配流の漸近的挙動を解析するための新しい手法を提供する。
関連論文リスト
- Non-asymptotic convergence analysis of the stochastic gradient
Hamiltonian Monte Carlo algorithm with discontinuous stochastic gradient with
applications to training of ReLU neural networks [8.058385158111207]
我々は、勾配ハミルトニアンモンテカルロのWasserstein-1 と Wasserstein-2 距離の目標測度への収束の非漸近解析を提供する。
本研究の主な成果を説明するために、定量推定に関する数値実験と、金融と人工知能に関連するReLUニューラルネットワークに関わるいくつかの問題について考察する。
論文 参考訳(メタデータ) (2024-09-25T17:21:09Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Critical Points and Convergence Analysis of Generative Deep Linear
Networks Trained with Bures-Wasserstein Loss [2.294014185517203]
本稿では,バーレス=ヴァッサーシュタイン距離で学習した共分散行列の行列分解モデルについて考察する。
階数有界行列の空間上のバーレス=ヴァッサーシュタイン距離の臨界点と最小化器を特徴づける。
有限段勾配勾配のスムーズな摂動バージョンを用いて勾配流の収束結果を確立する。
論文 参考訳(メタデータ) (2023-03-06T10:56:14Z) - Learning Discretized Neural Networks under Ricci Flow [51.36292559262042]
低精度重みとアクティベーションからなる離散ニューラルネットワーク(DNN)について検討する。
DNNは、訓練中に微分不可能な離散関数のために無限あるいはゼロの勾配に悩まされる。
論文 参考訳(メタデータ) (2023-02-07T10:51:53Z) - Asymptotic consistency of the WSINDy algorithm in the limit of continuum
data [0.0]
非線形力学アルゴリズム(WSINDy)の弱形式スパース同定の整合性について検討する。
弱形式方程式学習の雑音に対する観測されたロバスト性について数学的に厳密な説明を行う。
論文 参考訳(メタデータ) (2022-11-29T07:49:34Z) - Global Convergence of Over-parameterized Deep Equilibrium Models [52.65330015267245]
ディープ均衡モデル(Deep equilibrium model, DEQ)は、入射を伴う無限深度重み付きモデルの平衡点を通して暗黙的に定義される。
無限の計算の代わりに、ルートフィンディングで直接平衡点を解き、暗黙の微分で勾配を計算する。
本稿では,無限深度重み付きモデルの非漸近解析における技術的困難を克服する新しい確率的枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-27T08:00:13Z) - On Convergence of Training Loss Without Reaching Stationary Points [62.41370821014218]
ニューラルネットワークの重み変数は、損失関数の勾配が消える定常点に収束しないことを示す。
エルゴード理論の力学系に基づく新しい視点を提案する。
論文 参考訳(メタデータ) (2021-10-12T18:12:23Z) - Finite Sample Analysis of Minimax Offline Reinforcement Learning:
Completeness, Fast Rates and First-Order Efficiency [83.02999769628593]
強化学習におけるオフ・ポリティィ・アセスメント(OPE)の理論的特徴について述べる。
ミニマックス法により、重みと品質関数の高速収束を実現することができることを示す。
非タブラル環境における1次効率を持つ最初の有限サンプル結果を示す。
論文 参考訳(メタデータ) (2021-02-05T03:20:39Z) - Asymptotic convergence rate of Dropout on shallow linear neural networks [0.0]
本研究では, 微小線形ニューラルネットワークに適用する場合に, ドロップアウトとドロップコネクションによって誘導される目的関数の収束度を解析する。
我々は、勾配流の局所収束証明と、そのデータ、レート確率、NNの幅に依存する速度のバウンダリを得る。
論文 参考訳(メタデータ) (2020-12-01T19:02:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。