論文の概要: Sparse approximation in learning via neural ODEs
- arxiv url: http://arxiv.org/abs/2102.13566v1
- Date: Fri, 26 Feb 2021 16:23:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-01 13:57:58.795664
- Title: Sparse approximation in learning via neural ODEs
- Title(参考訳): ニューラルネットワークによる学習におけるスパース近似
- Authors: Carlos Esteve Yag\"ue and Borjan Geshkovski
- Abstract要約: 私たちはトレーニングで最終的な時間地平線$ T$の影響を研究します。
現実的には、トレーニング問題における短い時間水平は、より浅い残留ニューラルネットワークを考えると解釈できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the continuous-time, neural ordinary differential equation
(neural ODE) perspective of deep supervised learning, and study the impact of
the final time horizon $T$ in training. We focus on a cost consisting of an
integral of the empirical risk over the time interval, and $L^1$--parameter
regularization. Under homogeneity assumptions on the dynamics (typical for ReLU
activations), we prove that any global minimizer is sparse, in the sense that
there exists a positive stopping time $T^*$ beyond which the optimal parameters
vanish. Moreover, under appropriate interpolation assumptions on the neural
ODE, we provide quantitative estimates of the stopping time $T^\ast$, and of
the training error of the trajectories at the stopping time. The latter
stipulates a quantitative approximation property of neural ODE flows with
sparse parameters. In practical terms, a shorter time-horizon in the training
problem can be interpreted as considering a shallower residual neural network
(ResNet), and since the optimal parameters are concentrated over a shorter time
horizon, such a consideration may lower the computational cost of training
without discarding relevant information.
- Abstract(参考訳): 深層学習における連続時間, ニューラル常微分方程式(ニューラルODE)の視点を考察し, トレーニングにおける最終時間地平線の影響について検討する。
我々は、時間間隔における経験的リスクの積分と、l^1$-パラメータの正規化からなるコストに焦点を当てる。
ダイナミクス上の均質性仮定(ReLUアクティベーションの典型的)の下で、任意のグローバル最小化器は、最適パラメータが消滅するプラスの停止時間$T^*$が存在するという意味で、スパースであることを証明する。
さらに、ニューラルODE上の適切な補間仮定の下では、停止時間$T^\ast$と、停止時間における軌道のトレーニング誤差の定量的推定を行う。
後者は、スパースパラメータを持つ神経ODEフローの定量的近似特性を規定する。
現実的には、トレーニング問題における時間ホライゾンの短縮は、より浅い残留ニューラルネットワーク(ResNet)を考慮したものと解釈でき、最適パラメータはより短い時間地平線上に集中しているため、関連する情報を捨てることなく、トレーニングの計算コストを下げることができる。
関連論文リスト
- On Regularization via Early Stopping for Least Squares Regression [4.159762735751163]
我々は、任意のスペクトルを持つ汎用データや、幅広い学習率スケジュールにおいて、早期停止が有益であることを証明した。
最適停止時間を推定し,推定値の精度を実証的に示す。
論文 参考訳(メタデータ) (2024-06-06T18:10:51Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Speed Limits for Deep Learning [67.69149326107103]
熱力学の最近の進歩は、初期重量分布から完全に訓練されたネットワークの最終分布への移動速度の制限を可能にする。
線形および線形化可能なニューラルネットワークに対して,これらの速度制限に対する解析式を提供する。
NTKスペクトルとラベルのスペクトル分解に関するいくつかの妥当なスケーリング仮定を考えると、学習はスケーリングの意味で最適である。
論文 参考訳(メタデータ) (2023-07-27T06:59:46Z) - Learning Lipschitz Functions by GD-trained Shallow Overparameterized
ReLU Neural Networks [12.018422134251384]
このクラスでは、トレーニングエラーのほとんどゼロにトレーニングされたニューラルネットワークが矛盾していることが示される。
ReLUアクティベーション関数によって誘導されるカーネルのヒルベルト空間上で、何らかの早期停止規則が最適率(過剰リスク)を与えることが保証されたとき、同じ規則を極大最適率を達成するために使うことができることを示す。
論文 参考訳(メタデータ) (2022-12-28T14:56:27Z) - Learning Low Dimensional State Spaces with Overparameterized Recurrent
Neural Nets [57.06026574261203]
我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。
実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2022-10-25T14:45:15Z) - DeepBayes -- an estimator for parameter estimation in stochastic
nonlinear dynamical models [11.917949887615567]
本研究では,DeepBayes推定器を提案する。
ディープリカレントニューラルネットワークアーキテクチャはオフラインでトレーニングでき、推論中にかなりの時間を節約できる。
提案手法の異なる実例モデルへの適用性を実証し, 最先端手法との詳細な比較を行う。
論文 参考訳(メタデータ) (2022-05-04T18:12:17Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。
我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。
トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文 参考訳(メタデータ) (2020-08-28T04:29:54Z) - Large-time asymptotics in deep learning [0.0]
トレーニングにおける最終時間の$T$(対応するResNetの深さを示す可能性がある)の影響について検討する。
古典的な$L2$-正規化経験的リスク最小化問題に対して、トレーニングエラーが$mathcalOleft(frac1Tright)$のほとんどであることを示す。
$ellp$-距離損失の設定において、トレーニングエラーと最適パラメータの両方が$mathcalOleft(e-mu)の順序のほとんどであることを示す。
論文 参考訳(メタデータ) (2020-08-06T07:33:17Z) - On Learning Rates and Schr\"odinger Operators [105.32118775014015]
本稿では,学習率の影響に関する一般的な理論的分析を行う。
学習速度は、幅広い非ニューラルクラス関数に対してゼロとなる傾向にある。
論文 参考訳(メタデータ) (2020-04-15T09:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。