論文の概要: Flat Channels to Infinity in Neural Loss Landscapes
- arxiv url: http://arxiv.org/abs/2506.14951v1
- Date: Tue, 17 Jun 2025 20:04:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.472035
- Title: Flat Channels to Infinity in Neural Loss Landscapes
- Title(参考訳): ニューラルロスランドスケープにおけるインフィニティへのフラットチャネル
- Authors: Flavio Martinelli, Alexander Van Meegen, Berfin Şimşek, Wulfram Gerstner, Johanni Brea,
- Abstract要約: ニューラルネットワークのロスランドスケープには、平坦な地域で接続されたり、孤立して現れる可能性があるミニマとサドルポイントが含まれている。
ロスランドスケープ(損失ランドスケープ)の特別な構造を識別し,特徴付けする。
チャネルの終端におけるゲート線形ユニットの出現は、完全に連結された層の計算能力の驚くべき側面を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 46.76940650038536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The loss landscapes of neural networks contain minima and saddle points that may be connected in flat regions or appear in isolation. We identify and characterize a special structure in the loss landscape: channels along which the loss decreases extremely slowly, while the output weights of at least two neurons, $a_i$ and $a_j$, diverge to $\pm$infinity, and their input weight vectors, $\mathbf{w_i}$ and $\mathbf{w_j}$, become equal to each other. At convergence, the two neurons implement a gated linear unit: $a_i\sigma(\mathbf{w_i} \cdot \mathbf{x}) + a_j\sigma(\mathbf{w_j} \cdot \mathbf{x}) \rightarrow \sigma(\mathbf{w} \cdot \mathbf{x}) + (\mathbf{v} \cdot \mathbf{x}) \sigma'(\mathbf{w} \cdot \mathbf{x})$. Geometrically, these channels to infinity are asymptotically parallel to symmetry-induced lines of critical points. Gradient flow solvers, and related optimization methods like SGD or ADAM, reach the channels with high probability in diverse regression settings, but without careful inspection they look like flat local minima with finite parameter values. Our characterization provides a comprehensive picture of these quasi-flat regions in terms of gradient dynamics, geometry, and functional interpretation. The emergence of gated linear units at the end of the channels highlights a surprising aspect of the computational capabilities of fully connected layers.
- Abstract(参考訳): ニューラルネットワークのロスランドスケープには、平坦な地域で接続されたり、孤立して現れる可能性があるミニマポイントとサドルポイントが含まれている。
一方、少なくとも2つのニューロン、$a_i$と$a_j$の出力重みは$\pm$infinityに分岐し、それらの入力重みベクトル、$\mathbf{w_i}$と$\mathbf{w_j}$は互いに等しい。
a_i\sigma(\mathbf{w_i} \cdot \mathbf{x}) + a_j\sigma(\mathbf{w_j} \cdot \mathbf{x}) \rightarrow \sigma(\mathbf{w} \cdot \mathbf{x}) + (\mathbf{v} \cdot \mathbf{x}) \sigma'(\mathbf{w} \cdot \mathbf{x})$である。
幾何学的には、無限大へのこれらのチャネルは対称性によって誘導される臨界点の線と漸近的に平行である。
勾配流解法およびSGDやADAMのような関連する最適化手法は、様々な回帰設定において高い確率でチャネルに到達するが、注意深い検査なしでは有限パラメータ値の平坦な局所最小値のように見える。
我々のキャラクタリゼーションは、勾配力学、幾何学、および機能解釈の観点から、これらの準平坦領域の包括的画像を提供する。
チャネルの終端におけるゲート線形ユニットの出現は、完全に連結された層の計算能力の驚くべき側面を浮き彫りにしている。
関連論文リスト
- Displacement-Sparse Neural Optimal Transport [6.968698312185846]
最適輸送(OT)は、コスト関数を最小化しながら、ある確率測度から別の確率測度へ質量を輸送するマップ$T$を見つけることを目的としている。
ニューラルOTソルバは、薬物摂動などの高次元生物学的応用で人気を博している。
直感的で理論的に基礎を成す手法として,ニューラルOTソルバ内におけるエンファスメント・スパースマップの学習手法を提案する。
論文 参考訳(メタデータ) (2025-02-03T23:44:17Z) - Two-Timescale Gradient Descent Ascent Algorithms for Nonconvex Minimax Optimization [77.3396841985172]
我々は、構造化された非極小最適化問題の解法として、2時間勾配上昇(TTGDA)を統一的に解析する。
我々の貢献はTTGDAアルゴリズムを設計することであり、設定を超えて効果的です。
論文 参考訳(メタデータ) (2024-08-21T20:14:54Z) - Provably learning a multi-head attention layer [55.2904547651831]
マルチヘッドアテンション層は、従来のフィードフォワードモデルとは分離したトランスフォーマーアーキテクチャの重要な構成要素の1つである。
本研究では,ランダムな例から多面的注意層を実証的に学習する研究を開始する。
最悪の場合、$m$に対する指数的依存は避けられないことを示す。
論文 参考訳(メタデータ) (2024-02-06T15:39:09Z) - A Minimal Control Family of Dynamical Systems for Universal Approximation [5.217870815854702]
普遍近似特性(UAP)は、ディープラーニングにおいて基本的な位置を占める。
コンパクト領域上の連続函数を近似できることを示す。
この結果から,ニューラルネットワークと制御系との近似力の相関関係が明らかとなった。
論文 参考訳(メタデータ) (2023-12-20T10:36:55Z) - Neural Network Approximation of Continuous Functions in High Dimensions
with Applications to Inverse Problems [6.84380898679299]
現在の理論では、ネットワークは問題の次元で指数関数的にスケールすべきだと予測されている。
ニューラルネットワークがH"より古い(あるいは一様)連続関数を近似するのに要する複雑性を境界付ける一般的な方法を提案する。
論文 参考訳(メタデータ) (2022-08-28T22:44:07Z) - Learning a Single Neuron with Adversarial Label Noise via Gradient
Descent [50.659479930171585]
モノトン活性化に対する $mathbfxmapstosigma(mathbfwcdotmathbfx)$ の関数について検討する。
学習者の目標は仮説ベクトル $mathbfw$ that $F(mathbbw)=C, epsilon$ を高い確率で出力することである。
論文 参考訳(メタデータ) (2022-06-17T17:55:43Z) - Geometry of the Loss Landscape in Overparameterized Neural Networks:
Symmetries and Invariances [9.390008801320024]
それぞれに1つの余分なニューロンを加えると、以前の離散ミニマを1つの多様体に接続するのに十分であることを示す。
対称性によって誘導される臨界部分空間の数が、大域ミニマ多様体を構成するアフィン部分空間の数を支配していることを示す。
論文 参考訳(メタデータ) (2021-05-25T21:19:07Z) - Agnostic Learning of a Single Neuron with Gradient Descent [92.7662890047311]
期待される正方形損失から、最も適合した単一ニューロンを学習することの問題点を考察する。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
論文 参考訳(メタデータ) (2020-05-29T07:20:35Z) - On Gradient Descent Ascent for Nonconvex-Concave Minimax Problems [86.92205445270427]
非コンミニマックス問題、$min_mathbfx max_mathhidoty f(mathbfdoty)$を効率的に考える。
論文 参考訳(メタデータ) (2019-06-02T03:03:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。