論文の概要: A stochastic optimization approach to train non-linear neural networks
with regularization of higher-order total variation
- arxiv url: http://arxiv.org/abs/2308.02293v1
- Date: Fri, 4 Aug 2023 12:57:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-07 13:02:48.999156
- Title: A stochastic optimization approach to train non-linear neural networks
with regularization of higher-order total variation
- Title(参考訳): 高次全変動の正則化を伴う非線形ニューラルネットワークの確率的最適化
- Authors: Akifumi Okuno
- Abstract要約: 本研究は、トレーニング対象のパラメトリックモデルの$k$2次微分の平方積分として定義される、$k$2次全変分(k$-TV)正則化について考察する。
実験により、$K$-TVでトレーニングされたニューラルネットワークは、従来のパラメータ正規化よりも「回復力」が高いことが示された。
- 参考スコア(独自算出の注目度): 6.231304401179968
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While highly expressive parametric models including deep neural networks have
an advantage to model complicated concepts, training such highly non-linear
models is known to yield a high risk of notorious overfitting. To address this
issue, this study considers a $k$th order total variation ($k$-TV)
regularization, which is defined as the squared integral of the $k$th order
derivative of the parametric models to be trained; penalizing the $k$-TV is
expected to yield a smoother function, which is expected to avoid overfitting.
While the $k$-TV terms applied to general parametric models are computationally
intractable due to the integration, this study provides a stochastic
optimization algorithm, that can efficiently train general models with the
$k$-TV regularization without conducting explicit numerical integration. The
proposed approach can be applied to the training of even deep neural networks
whose structure is arbitrary, as it can be implemented by only a simple
stochastic gradient descent algorithm and automatic differentiation. Our
numerical experiments demonstrate that the neural networks trained with the
$K$-TV terms are more ``resilient'' than those with the conventional parameter
regularization. The proposed algorithm also can be extended to the
physics-informed training of neural networks (PINNs).
- Abstract(参考訳): ディープニューラルネットワークを含む高度に表現力のあるパラメトリックモデルは複雑な概念をモデル化するのに有利であるが、そのような高度に非線形なモデルの訓練は悪名高い過剰フィッティングのリスクをもたらすことが知られている。
この問題に対処するために、この研究では、訓練対象パラメトリックモデルの$k$2次微分の平方積分として定義される、$k$2次全変動(k$-TV)正則化(英語版)について検討する。
一般パラメトリックモデルに適用される$k$-TV項は、積分により計算的に難解であるが、本研究では、明示的な数値積分を行うことなく、$k$-TV正規化で一般モデルを効率的に訓練できる確率的最適化アルゴリズムを提供する。
提案手法は、単純な確率勾配降下アルゴリズムと自動微分のみで実装できるので、構造が任意である深いニューラルネットワークのトレーニングにも適用することができる。
我々の数値実験は、従来のパラメータ正規化よりも、$K$-TVで訓練されたニューラルネットワークの方が「レジリエント」であることを示した。
提案アルゴリズムは、ニューラルネットワーク(PINN)の物理インフォームドトレーニングにも拡張可能である。
関連論文リスト
- The Convex Landscape of Neural Networks: Characterizing Global Optima
and Stationary Points via Lasso Models [75.33431791218302]
ディープニューラルネットワーク(DNN)モデルは、プログラミング目的に使用される。
本稿では,凸型神経回復モデルについて検討する。
定常的非次元目的物はすべて,グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
また, 静止非次元目的物はすべて, グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
論文 参考訳(メタデータ) (2023-12-19T23:04:56Z) - Distribution learning via neural differential equations: a nonparametric
statistical perspective [1.4436965372953483]
この研究は、確率変換によって訓練されたODEモデルによる分布学習のための最初の一般統計収束解析を確立する。
後者はクラス $mathcal F$ の$C1$-metric entropy で定量化できることを示す。
次に、この一般フレームワークを$Ck$-smoothターゲット密度の設定に適用し、関連する2つの速度場クラスに対する最小最適収束率を$mathcal F$:$Ck$関数とニューラルネットワークに設定する。
論文 参考訳(メタデータ) (2023-09-03T00:21:37Z) - Training Overparametrized Neural Networks in Sublinear Time [14.918404733024332]
ディープラーニングには膨大な計算とエネルギーのコストが伴う。
探索木の小さな部分集合として、二分ニューラルネットワークの新しいサブセットを示し、それぞれが探索木のサブセット(Ds)に対応する。
我々はこの見解が深層ネットワーク(Ds)の分析解析にさらに応用できると考えている。
論文 参考訳(メタデータ) (2022-08-09T02:29:42Z) - Robust Training and Verification of Implicit Neural Networks: A
Non-Euclidean Contractive Approach [64.23331120621118]
本稿では,暗黙的ニューラルネットワークのトレーニングとロバスト性検証のための理論的および計算的枠組みを提案する。
組込みネットワークを導入し、組込みネットワークを用いて、元のネットワークの到達可能な集合の超近似として$ell_infty$-normボックスを提供することを示す。
MNISTデータセット上で暗黙的なニューラルネットワークをトレーニングするためにアルゴリズムを適用し、我々のモデルの堅牢性と、文献における既存のアプローチを通じてトレーニングされたモデルを比較する。
論文 参考訳(メタデータ) (2022-08-08T03:13:24Z) - Fast variable selection makes scalable Gaussian process BSS-ANOVA a
speedy and accurate choice for tabular and time series regression [0.0]
ガウス過程 (GP) は長い歴史を持つ非パラメトリック回帰エンジンである。
拡張性のあるGPアプローチの1つは、2009年に開発されたKL(Karhunen-Lo'eve)分解カーネルBSS-ANOVAである。
項の数を迅速かつ効果的に制限し、競争力のある精度の方法をもたらす新しい変数選択法である。
論文 参考訳(メタデータ) (2022-05-26T23:41:43Z) - Minimax Optimal Quantization of Linear Models: Information-Theoretic
Limits and Efficient Algorithms [59.724977092582535]
測定から学習した線形モデルの定量化の問題を考える。
この設定の下では、ミニマックスリスクに対する情報理論の下限を導出する。
本稿では,2層ReLUニューラルネットワークに対して,提案手法と上界を拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-02-23T02:39:04Z) - Neural Capacitance: A New Perspective of Neural Network Selection via
Edge Dynamics [85.31710759801705]
現在の実践は、性能予測のためのモデルトレーニングにおいて高価な計算コストを必要とする。
本稿では,学習中のシナプス接続(エッジ)上の制御ダイナミクスを解析し,ニューラルネットワーク選択のための新しいフレームワークを提案する。
我々のフレームワークは、ニューラルネットワークトレーニング中のバックプロパゲーションがシナプス接続の動的進化と等価であるという事実に基づいて構築されている。
論文 参考訳(メタデータ) (2022-01-11T20:53:15Z) - A quantum algorithm for training wide and deep classical neural networks [72.2614468437919]
勾配勾配勾配による古典的トレーサビリティに寄与する条件は、量子線形系を効率的に解くために必要な条件と一致することを示す。
MNIST画像データセットがそのような条件を満たすことを数値的に示す。
我々は、プールを用いた畳み込みニューラルネットワークのトレーニングに$O(log n)$の実証的証拠を提供する。
論文 参考訳(メタデータ) (2021-07-19T23:41:03Z) - An efficient projection neural network for $\ell_1$-regularized logistic
regression [10.517079029721257]
本稿では, $ell_$-regularized logistics regression のための単純な投影ニューラルネットワークを提案する。
提案したニューラルネットワークは、余分な補助変数や滑らかな近似を必要としない。
また、リアプノフ理論を用いて、提案したニューラルネットワークの収束について検討し、任意の初期値を持つ問題の解に収束することを示す。
論文 参考訳(メタデータ) (2021-05-12T06:13:44Z) - Large-time asymptotics in deep learning [0.0]
トレーニングにおける最終時間の$T$(対応するResNetの深さを示す可能性がある)の影響について検討する。
古典的な$L2$-正規化経験的リスク最小化問題に対して、トレーニングエラーが$mathcalOleft(frac1Tright)$のほとんどであることを示す。
$ellp$-距離損失の設定において、トレーニングエラーと最適パラメータの両方が$mathcalOleft(e-mu)の順序のほとんどであることを示す。
論文 参考訳(メタデータ) (2020-08-06T07:33:17Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。