論文の概要: On the ISS Property of the Gradient Flow for Single Hidden-Layer Neural
Networks with Linear Activations
- arxiv url: http://arxiv.org/abs/2305.09904v1
- Date: Wed, 17 May 2023 02:26:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 17:42:41.921766
- Title: On the ISS Property of the Gradient Flow for Single Hidden-Layer Neural
Networks with Linear Activations
- Title(参考訳): 線形活性化を持つ単一隠れ層ニューラルネットワークの勾配流れの iss 特性について
- Authors: Arthur Castello B. de Oliveira, Milad Siami and Eduardo D. Sontag
- Abstract要約: 本研究では,不確かさが勾配推定に及ぼす影響について検討した。
一般の過度にパラメータ化された定式化は、損失関数が最小化される集合の外側に配置されるスプリアス平衡の集合を導入することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research in neural networks and machine learning suggests that using
many more parameters than strictly required by the initial complexity of a
regression problem can result in more accurate or faster-converging models --
contrary to classical statistical belief. This phenomenon, sometimes known as
``benign overfitting'', raises questions regarding in what other ways might
overparameterization affect the properties of a learning problem. In this work,
we investigate the effects of overfitting on the robustness of gradient-descent
training when subject to uncertainty on the gradient estimation. This
uncertainty arises naturally if the gradient is estimated from noisy data or
directly measured. Our object of study is a linear neural network with a
single, arbitrarily wide, hidden layer and an arbitrary number of inputs and
outputs. In this paper we solve the problem for the case where the input and
output of our neural-network are one-dimensional, deriving sufficient
conditions for robustness of our system based on necessary and sufficient
conditions for convergence in the undisturbed case. We then show that the
general overparametrized formulation introduces a set of spurious equilibria
which lay outside the set where the loss function is minimized, and discuss
directions of future work that might extend our current results for more
general formulations.
- Abstract(参考訳): ニューラルネットワークと機械学習に関する最近の研究は、回帰問題の初期の複雑性によって厳密に要求されるよりも多くのパラメータを使用すると、より正確でより高速に収束するモデル(古典的統計的信念)をもたらすことを示唆している。
この現象は、しばしば' Benign overfitting'として知られ、他の方法で過度パラメータ化が学習問題の性質に与える影響について疑問を投げかける。
本研究では,不確実性が勾配推定に及ぼす影響について検討する。
この不確実性は、ノイズデータから勾配を推定したり、直接測定した場合に自然に発生する。
私たちの研究対象は、任意の数の入力と出力を持つ、任意に幅の広い隠れ層を持つ線形ニューラルネットワークである。
本稿では,ニューラルネットワークの入力と出力が一次元である場合の問題を,不整合の場合の収束に必要な条件と十分な条件に基づいて,システムの堅牢性に関する十分な条件を導出する。
次に、一般の過度にパラメータ化された定式化は、損失関数が最小化される集合の外側に配置されたスプリアス平衡の集合を導入し、より一般的な定式化のために現在の結果を拡張できる将来の作業の方向性について議論する。
関連論文リスト
- Topological obstruction to the training of shallow ReLU neural networks [0.0]
損失ランドスケープの幾何学と単純なニューラルネットワークの最適化軌跡との相互作用について検討する。
本稿では,勾配流を用いた浅部ReLUニューラルネットワークの損失景観におけるトポロジカル障害物の存在を明らかにする。
論文 参考訳(メタデータ) (2024-10-18T19:17:48Z) - Minimum-Norm Interpolation Under Covariate Shift [14.863831433459902]
高次元線形回帰に関する非分布研究は、テキシトベニンオーバーフィッティング(textitbenign overfitting)として知られる現象の同定につながった。
本稿では,移動学習環境における線形補間器の非漸近的過剰リスク境界を初めて証明する。
論文 参考訳(メタデータ) (2024-03-31T01:41:57Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Learning Low Dimensional State Spaces with Overparameterized Recurrent
Neural Nets [57.06026574261203]
我々は、長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。
実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2022-10-25T14:45:15Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z) - Wide Network Learning with Differential Privacy [7.453881927237143]
現在のニューラルネットの世代は、最も実質的に関連するプライバシトレーニング体制下で大きな損失を被っている。
プライベートな経験最小化(ERM)の勾配を生かしたこれらのモデルを訓練するための一般的なアプローチを開発する。
同じパラメータの数に従って、ニューラルネットワークをプライベートにトレーニングするための新しいアルゴリズムを提案します。
論文 参考訳(メタデータ) (2021-03-01T20:31:50Z) - Non-Singular Adversarial Robustness of Neural Networks [58.731070632586594]
小さな入力摂動に対する過敏性のため、アドリヤルロバスト性はニューラルネットワークにとって新たな課題となっている。
我々は,データ入力とモデル重みの共振レンズを用いて,ニューラルネットワークの非特異な対角性の概念を定式化する。
論文 参考訳(メタデータ) (2021-02-23T20:59:30Z) - Attribute-Guided Adversarial Training for Robustness to Natural
Perturbations [64.35805267250682]
本稿では,属性空間への分類器の露出を最大化するために,新しいサンプルを生成することを学習する逆学習手法を提案する。
我々のアプローチは、ディープニューラルネットワークが自然に発生する摂動に対して堅牢であることを可能にする。
論文 参考訳(メタデータ) (2020-12-03T10:17:30Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - The Neural Tangent Kernel in High Dimensions: Triple Descent and a
Multi-Scale Theory of Generalization [34.235007566913396]
現代のディープラーニングモデルでは、トレーニングデータに適合するために必要なパラメータよりもはるかに多くのパラメータが採用されている。
この予期せぬ振る舞いを記述するための新たなパラダイムは、エンファンダブル降下曲線(英語版)である。
本稿では,勾配降下を伴う広帯域ニューラルネットワークの挙動を特徴付けるニューラル・タンジェント・カーネルを用いた一般化の高精度な高次元解析を行う。
論文 参考訳(メタデータ) (2020-08-15T20:55:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。