論文の概要: A stochastic optimization approach to train non-linear neural networks
with a higher-order variation regularization
- arxiv url: http://arxiv.org/abs/2308.02293v2
- Date: Mon, 14 Aug 2023 05:06:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 18:42:05.474108
- Title: A stochastic optimization approach to train non-linear neural networks
with a higher-order variation regularization
- Title(参考訳): 高次変分正規化を用いた非線形ニューラルネットワークの確率的最適化
- Authors: Akifumi Okuno
- Abstract要約: 本研究は、$(k,q)$thorder variation regularization((k,q)$-VR)を考える。
$(k,q)$-VR は、訓練対象のパラメトリックモデルの絶対$k$次微分の$q$thパワー積分として定義される。
我々の数値実験は、従来のパラメータ正規化よりも、$(k,q)$-VRで訓練されたニューラルネットワークの方が弾力性が高いことを示した。
- 参考スコア(独自算出の注目度): 3.0277213703725767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While highly expressive parametric models including deep neural networks have
an advantage to model complicated concepts, training such highly non-linear
models is known to yield a high risk of notorious overfitting. To address this
issue, this study considers a $(k,q)$th order variation regularization
($(k,q)$-VR), which is defined as the $q$th-powered integral of the absolute
$k$th order derivative of the parametric models to be trained; penalizing the
$(k,q)$-VR is expected to yield a smoother function, which is expected to avoid
overfitting. Particularly, $(k,q)$-VR encompasses the conventional
(general-order) total variation with $q=1$. While the $(k,q)$-VR terms applied
to general parametric models are computationally intractable due to the
integration, this study provides a stochastic optimization algorithm, that can
efficiently train general models with the $(k,q)$-VR without conducting
explicit numerical integration. The proposed approach can be applied to the
training of even deep neural networks whose structure is arbitrary, as it can
be implemented by only a simple stochastic gradient descent algorithm and
automatic differentiation. Our numerical experiments demonstrate that the
neural networks trained with the $(k,q)$-VR terms are more ``resilient'' than
those with the conventional parameter regularization. The proposed algorithm
also can be extended to the physics-informed training of neural networks
(PINNs).
- Abstract(参考訳): ディープニューラルネットワークを含む高度に表現力のあるパラメトリックモデルは複雑な概念をモデル化するのに有利であるが、そのような高度に非線形なモデルの訓練は悪名高い過剰フィッティングのリスクをもたらすことが知られている。
この問題に対処するため、本研究では、トレーニング対象のパラメトリックモデルの絶対$k$th階微分の$q$th力による積分として定義される$(k,q)$th階変動正規化((k,q)$-vr)を考察する。
特に$(k,q)$-VRは、$q=1$の従来の(一般的な)全変動を含む。
一般パラメトリックモデルに適用される$(k,q)$-VR項は、積分により計算的に難解であるが、この研究は、(k,q)$-VRを明示的な数値積分を行なわずに効率的に一般モデルを訓練できる確率的最適化アルゴリズムを提供する。
提案手法は、単純な確率勾配降下アルゴリズムと自動微分のみで実装できるので、構造が任意である深いニューラルネットワークのトレーニングにも適用することができる。
我々の数値実験により、$(k,q)$-VRでトレーニングされたニューラルネットワークは、従来のパラメータ正規化よりも「レジリエント」であることが示された。
提案アルゴリズムは、ニューラルネットワーク(PINN)の物理インフォームドトレーニングにも拡張可能である。
関連論文リスト
- The Convex Landscape of Neural Networks: Characterizing Global Optima
and Stationary Points via Lasso Models [75.33431791218302]
ディープニューラルネットワーク(DNN)モデルは、プログラミング目的に使用される。
本稿では,凸型神経回復モデルについて検討する。
定常的非次元目的物はすべて,グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
また, 静止非次元目的物はすべて, グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
論文 参考訳(メタデータ) (2023-12-19T23:04:56Z) - Faster Predict-and-Optimize with Davis-Yin Splitting [3.9824631668067507]
ニューラルネットワークを使用して$d$の予測を行う傾向がありますが、そのようなモデルのトレーニングには、ニューラルネットワークのトレーニングに使用される勾配ベースのフレームワークと、最適化の独立した性質の調整が必要です。
このアプローチを用いた既存手法は小さな問題(10-100変数)に対して非常に有効であることが示されているが、大きな問題に対してうまくスケールしない。
本研究では,最新の凸最適化から,数千の変数を扱う問題に対して無駄にスケールするネットワークとトレーニングスキームを設計するためのアイデアを導出する。
論文 参考訳(メタデータ) (2023-01-31T04:03:28Z) - Training Overparametrized Neural Networks in Sublinear Time [14.918404733024332]
ディープラーニングには膨大な計算とエネルギーのコストが伴う。
探索木の小さな部分集合として、二分ニューラルネットワークの新しいサブセットを示し、それぞれが探索木のサブセット(Ds)に対応する。
我々はこの見解が深層ネットワーク(Ds)の分析解析にさらに応用できると考えている。
論文 参考訳(メタデータ) (2022-08-09T02:29:42Z) - Robust Training and Verification of Implicit Neural Networks: A
Non-Euclidean Contractive Approach [64.23331120621118]
本稿では,暗黙的ニューラルネットワークのトレーニングとロバスト性検証のための理論的および計算的枠組みを提案する。
組込みネットワークを導入し、組込みネットワークを用いて、元のネットワークの到達可能な集合の超近似として$ell_infty$-normボックスを提供することを示す。
MNISTデータセット上で暗黙的なニューラルネットワークをトレーニングするためにアルゴリズムを適用し、我々のモデルの堅牢性と、文献における既存のアプローチを通じてトレーニングされたモデルを比較する。
論文 参考訳(メタデータ) (2022-08-08T03:13:24Z) - Fast variable selection makes scalable Gaussian process BSS-ANOVA a
speedy and accurate choice for tabular and time series regression [0.0]
ガウス過程 (GP) は長い歴史を持つ非パラメトリック回帰エンジンである。
拡張性のあるGPアプローチの1つは、2009年に開発されたKL(Karhunen-Lo'eve)分解カーネルBSS-ANOVAである。
項の数を迅速かつ効果的に制限し、競争力のある精度の方法をもたらす新しい変数選択法である。
論文 参考訳(メタデータ) (2022-05-26T23:41:43Z) - Minimax Optimal Quantization of Linear Models: Information-Theoretic
Limits and Efficient Algorithms [59.724977092582535]
測定から学習した線形モデルの定量化の問題を考える。
この設定の下では、ミニマックスリスクに対する情報理論の下限を導出する。
本稿では,2層ReLUニューラルネットワークに対して,提案手法と上界を拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-02-23T02:39:04Z) - Neural Capacitance: A New Perspective of Neural Network Selection via
Edge Dynamics [85.31710759801705]
現在の実践は、性能予測のためのモデルトレーニングにおいて高価な計算コストを必要とする。
本稿では,学習中のシナプス接続(エッジ)上の制御ダイナミクスを解析し,ニューラルネットワーク選択のための新しいフレームワークを提案する。
我々のフレームワークは、ニューラルネットワークトレーニング中のバックプロパゲーションがシナプス接続の動的進化と等価であるという事実に基づいて構築されている。
論文 参考訳(メタデータ) (2022-01-11T20:53:15Z) - A quantum algorithm for training wide and deep classical neural networks [72.2614468437919]
勾配勾配勾配による古典的トレーサビリティに寄与する条件は、量子線形系を効率的に解くために必要な条件と一致することを示す。
MNIST画像データセットがそのような条件を満たすことを数値的に示す。
我々は、プールを用いた畳み込みニューラルネットワークのトレーニングに$O(log n)$の実証的証拠を提供する。
論文 参考訳(メタデータ) (2021-07-19T23:41:03Z) - An efficient projection neural network for $\ell_1$-regularized logistic
regression [10.517079029721257]
本稿では, $ell_$-regularized logistics regression のための単純な投影ニューラルネットワークを提案する。
提案したニューラルネットワークは、余分な補助変数や滑らかな近似を必要としない。
また、リアプノフ理論を用いて、提案したニューラルネットワークの収束について検討し、任意の初期値を持つ問題の解に収束することを示す。
論文 参考訳(メタデータ) (2021-05-12T06:13:44Z) - Large-time asymptotics in deep learning [0.0]
トレーニングにおける最終時間の$T$(対応するResNetの深さを示す可能性がある)の影響について検討する。
古典的な$L2$-正規化経験的リスク最小化問題に対して、トレーニングエラーが$mathcalOleft(frac1Tright)$のほとんどであることを示す。
$ellp$-距離損失の設定において、トレーニングエラーと最適パラメータの両方が$mathcalOleft(e-mu)の順序のほとんどであることを示す。
論文 参考訳(メタデータ) (2020-08-06T07:33:17Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。