Fugu-MT 論文翻訳(概要): Loss Landscape of Shallow ReLU-like Neural Networks: Stationary Points, Saddle Escape, and Network Embedding

論文の概要: Loss Landscape of Shallow ReLU-like Neural Networks: Stationary Points, Saddle Escape, and Network Embedding

arxiv url: http://arxiv.org/abs/2402.05626v6
Date: Sun, 16 Mar 2025 11:13:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-18 21:01:23.627431
Title: Loss Landscape of Shallow ReLU-like Neural Networks: Stationary Points, Saddle Escape, and Network Embedding
Title（参考訳）: 浅部ReLU様ニューラルネットワークのランドスケープ:静止点,サドルエスケープ,ネットワーク埋め込み
Authors: Frank Zhengqing Wu, Berfin Simsek, Francois Gaston Ged,
Abstract要約: 経験的二乗損失を学習したReLU様活性化関数を持つ一層ニューラルネットワークの損失状況について検討した。トレーニング中の損失減少を著しく抑制するネットワークの定常点を同定する。
参考スコア（独自算出の注目度）: 1.4513150969598634
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we study the loss landscape of one-hidden-layer neural networks with ReLU-like activation functions trained with the empirical squared loss using gradient descent (GD). We identify the stationary points of such networks, which significantly slow down loss decrease during training. To capture such points while accounting for the non-differentiability of the loss, the stationary points that we study are directional stationary points, rather than other notions like Clarke stationary points. We show that, if a stationary point does not contain "escape neurons", which are defined with first-order conditions, it must be a local minimum. Moreover, for the scalar-output case, the presence of an escape neuron guarantees that the stationary point is not a local minimum. Our results refine the description of the saddle-to-saddle training process starting from infinitesimally small (vanishing) initialization for shallow ReLU-like networks: By precluding the saddle escape types that previous works did not rule out, we advance one step closer to a complete picture of the entire dynamics. Moreover, we are also able to fully discuss how network embedding, which is to instantiate a narrower network with a wider network, reshapes the stationary points.
Abstract（参考訳）: 本稿では、勾配勾配勾配(GD)を用いた経験的二乗損失を学習したReLUのような活性化関数を持つ一層ニューラルネットワークの損失状況について検討する。トレーニング中の損失減少を著しく抑制するネットワークの定常点を同定する。損失の微分不可能性を考慮しながらそのような点を捉えるために、我々が研究する定常点は、クラーク定常点のような他の概念よりも、方向定常点である。定常点が一階条件で定義される「エスケープニューロン」を含まない場合、局所最小値でなければならないことを示す。さらに、スカラーアウトプットの場合、エスケープニューロンの存在は、静止点が局所的な最小値でないことを保証している。その結果,浅部ReLU型ネットワークの無限小初期化から始まり,サドル・アンド・サドル・トレーニングプロセスの記述を洗練させることができた。さらに、より広いネットワークでより狭いネットワークをインスタンス化するネットワーク埋め込みが、静止点を再設定する方法について、十分に議論することができる。

関連論文リスト

Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文参考訳（メタデータ） (2023-10-29T08:47:48Z)
The Implicit Bias of Minima Stability in Multivariate Shallow ReLU Networks [53.95175206863992]
本研究では,2次損失を持つ1層多変量ReLUネットワークをトレーニングする際に,勾配勾配勾配が収束する解のタイプについて検討する。我々は、浅いReLUネットワークが普遍近似器であるにもかかわらず、安定した浅層ネットワークは存在しないことを証明した。
論文参考訳（メタデータ） (2023-06-30T09:17:39Z)
Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文参考訳（メタデータ） (2022-10-13T15:09:54Z)
Gradient descent provably escapes saddle points in the training of shallow ReLU networks [6.458742319938318]
我々は、関連する力学系の結果の変種、中心安定な多様体定理を証明し、そこでは正規性要求のいくつかを緩和する。浅部ReLUおよび漏洩ReLUネットワークに対する正方積分損失関数の臨界点の詳細な検討に基づいて、勾配降下がほとんどのサドル点を下降させることを示す。
論文参考訳（メタデータ） (2022-08-03T14:08:52Z)
Semi-signed neural fitting for surface reconstruction from unoriented point clouds [53.379712818791894]
より優れた符号付き距離場を再構成するためのSN-Fittingを提案する。 SSNフィッティングは半署名の監督と損失に基づく領域サンプリング戦略で構成されている。我々は,SSN-Fittingが,異なる設定下で最先端の性能を達成することを示す実験を行う。
論文参考訳（メタデータ） (2022-06-14T09:40:17Z)
On the Effective Number of Linear Regions in Shallow Univariate ReLU Networks: Convergence Guarantees and Implicit Bias [50.84569563188485]
我々は、ラベルが$r$のニューロンを持つターゲットネットワークの符号によって決定されるとき、勾配流が方向収束することを示す。我々の結果は、標本サイズによらず、幅が$tildemathcalO(r)$である、緩やかなオーバーパラメータ化をすでに維持しているかもしれない。
論文参考訳（メタデータ） (2022-05-18T16:57:10Z)
On the Omnipresence of Spurious Local Minima in Certain Neural Network Training Problems [0.0]
本研究では,1次元実出力を持つ深層ニューラルネットワークにおける学習課題の損失状況について検討する。このような問題は、アフィンでないすべての対象函数に対して、刺激的(すなわち、大域的最適ではない)局所ミニマの連続体を持つことが示されている。
論文参考訳（メタデータ） (2022-02-23T14:41:54Z)
Mean-field Analysis of Piecewise Linear Solutions for Wide ReLU Networks [83.58049517083138]
勾配勾配勾配を用いた2層ReLUネットワークについて検討する。 SGDは単純な解に偏りがあることが示される。また,データポイントと異なる場所で結び目が発生するという経験的証拠も提供する。
論文参考訳（メタデータ） (2021-11-03T15:14:20Z)
The layer-wise L1 Loss Landscape of Neural Nets is more complex around local minima [3.04585143845864]
我々はDeep ReLU Simplexアルゴリズムを用いて隣接頂点における損失を単調に最小化する。局所最小値の周りの近所では、反復は、損失レベルと局所最小値の近接に関する結論が発見される前に行われるように異なる行動をとる。これは新しい勾配-descentアルゴリズムの設計に広範な影響をもたらす可能性がある。
論文参考訳（メタデータ） (2021-05-06T17:18:44Z)
On Connectivity of Solutions in Deep Learning: The Role of Over-parameterization and Feature Quality [21.13299067136635]
パラメータ空間における2つの任意の点の接続を保証するための新しい条件を提案する。この条件はドロップアウトの安定性よりも明らかに穏やかであり、低損失経路の発見問題とニューラルネットワークの記憶能力との関係を提供する。
論文参考訳（メタデータ） (2021-02-18T23:44:08Z)
When does gradient descent with logistic loss find interpolating two-layer networks? [51.1848572349154]
また,初期損失が十分小さい場合,勾配降下がトレーニング損失をゼロにすることを示した。データが一定のクラスタと分離条件を満たし、ネットワークが十分に広い場合、勾配降下の一段階が、最初の結果が適用されるほど損失を十分に減少させることを示す。
論文参考訳（メタデータ） (2020-12-04T05:16:51Z)
No one-hidden-layer neural network can represent multivariable functions [0.0]
ニューラルネットワークによる関数近似において、各隠れ層ユニットのパラメータを最適化することにより、入力データセットを出力インデックスにマッピングする。整列線形単位(ReLU)アクティベーション関数を持つ一隠れ層ニューラルネットワークの連続バージョンを構築することにより、パラメータとその第2の導関数に制約を与える。
論文参考訳（メタデータ） (2020-06-19T06:46:54Z)
GRNet: Gridding Residual Network for Dense Point Cloud Completion [54.43648460932248]
完全な3Dポイントクラウドを不完全なクラウドから推定することは、多くのビジョンやロボティクスアプリケーションにおいて重要な問題である。本稿では,ポイントクラウド補完のための新しいGridding Residual Network(GRNet)を提案する。実験結果から,提案したGRNetはShapeNet,Completion3D,KITTIベンチマークの最先端手法に対して良好に動作することがわかった。
論文参考訳（メタデータ） (2020-06-06T02:46:39Z)
Piecewise linear activations substantially shape the loss surfaces of neural networks [95.73230376153872]
本稿では,ニューラルネットワークの損失面を著しく形成する線形活性化関数について述べる。我々はまず、多くのニューラルネットワークの損失面が、大域的なミニマよりも経験的リスクの高い局所的ミニマとして定義される無限の急激な局所的ミニマを持つことを証明した。一層ネットワークの場合、セル内のすべての局所ミニマが同値類であり、谷に集中しており、セル内のすべてのグローバルミニマであることを示す。
論文参考訳（メタデータ） (2020-03-27T04:59:34Z)
Critical Point-Finding Methods Reveal Gradient-Flat Regions of Deep Network Losses [2.046307988932347]
勾配に基づくアルゴリズムは、ランダムな初期点からほぼ同じ性能に収束する。提案手法は, 決定的臨界点を見つけるために用いられる手法が, それ自体が悪いミニマ問題に悩まされていることを示す。
論文参考訳（メタデータ） (2020-03-23T17:16:19Z)
Ill-Posedness and Optimization Geometry for Nonlinear Neural Network Training [4.7210697296108926]
ネットワーク構築における非線形活性化関数は、損失景観の定常点の分類において重要な役割を担っていることを示す。浅密度ネットワークの場合、非線形活性化関数は大域ミニマ近傍のヘッセンヌル空間を決定する。これらの結果を高密度ニューラルネットワークに拡張することにより、最終活性化関数が定常点の分類において重要な役割を果たすことを示す。
論文参考訳（メタデータ） (2020-02-07T16:33:34Z)
How Implicit Regularization of ReLU Neural Networks Characterizes the Learned Function -- Part I: the 1-D Case of Two Layers with Random First Layer [5.969858080492586]
重みをランダムに選択し、終端層のみをトレーニングする1次元(浅)ReLUニューラルネットワークを考える。そのようなネットワークにおいて、L2-正則化回帰は関数空間において、かなり一般の損失汎関数に対する推定の第2微分を正則化するために対応することを示す。
論文参考訳（メタデータ） (2019-11-07T13:48:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。