Fugu-MT 論文翻訳(概要): Hidden Minima in Two-Layer ReLU Networks

論文の概要: Hidden Minima in Two-Layer ReLU Networks

arxiv url: http://arxiv.org/abs/2312.16819v1
Date: Thu, 28 Dec 2023 04:27:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-29 17:48:32.969315
Title: Hidden Minima in Two-Layer ReLU Networks
Title（参考訳）: 2層ReLUネットワークにおける隠れミニマ
Authors: Yossi Arjevani
Abstract要約: 無限族の最小値が$d$と$k$の2つのカテゴリが最近発見された。第1の圏に属するミニマの損失は、$d$が増加するにつれて0に収束する。第2のカテゴリでは、損失はゼロから切り離されたままである。
参考スコア（独自算出の注目度）: 7.23389716633927
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The optimization problem associated to fitting two-layer ReLU networks having $d$~inputs, $k$~neurons, and labels generated by a target network, is considered. Two categories of infinite families of minima, giving one minimum per $d$ and $k$, were recently found. The loss at minima belonging to the first category converges to zero as $d$ increases. In the second category, the loss remains bounded away from zero. That being so, how may one avoid minima belonging to the latter category? Fortunately, such minima are never detected by standard optimization methods. Motivated by questions concerning the nature of this phenomenon, we develop methods to study distinctive analytic properties of hidden minima. By existing analyses, the Hessian spectrum of both categories agree modulus $O(d^{-1/2})$-terms -- not promising. Thus, rather, our investigation proceeds by studying curves along which the loss is minimized or maximized, referred to as tangency arcs. We prove that pure, seemingly remote, group representation-theoretic considerations concerning the arrangement of subspaces invariant to the action of subgroups of $S_d$, the symmetry group over $d$ symbols, relative to ones fixed by the action yield a precise description of all finitely many admissible types of tangency arcs. The general results applied for the loss function reveal that arcs emanating from hidden minima differ, characteristically, by their structure and symmetry, precisely on account of the $O(d^{-1/2})$-eigenvalue terms absent in previous work, indicating the subtly of the analysis. The theoretical results, stated and proved for o-minimal structures, show that the set comprising all tangency arcs is topologically sufficiently tame, permitting a numerical construction of tangency arcs, and ultimately, a comparison of how minima from both categories are positioned relative to adjacent critical points.
Abstract（参考訳）: ターゲットネットワークで生成された$d$~inputs,$k$~neurons,ラベルを持つ2層ReLUネットワークの適合に関する最適化問題を考察する。無限族の最小値が$d$と$k$の2つのカテゴリが最近発見された。最初のカテゴリに属するminimaの損失は$d$が増加するにつれてゼロに収束する。第2のカテゴリでは、損失はゼロから切り離されている。つまり、後者のカテゴリに属するミニマを避けるにはどうすればよいのか? 幸いなことに、このようなミニマは標準最適化手法では検出されない。この現象の性質に関する疑問に動機づけられ,隠れたミニマの特徴的な解析的性質を研究する手法を開発した。既存の解析により、両方の圏のヘッセンスペクトルは、有望ではない modulus $O(d^{-1/2})$-terms に一致する。したがって, むしろ, 損失が最小化され, 最大化される曲線を, 接弧と呼ぶことにより, 調査が進められる。我々は、S_d$ の部分群の作用に不変な部分空間の配置に関する純粋で、一見遠隔の群表現論的な考察が、作用によって固定された記号に対して$d$ のシンボル上の対称性群であることを示す。損失関数に適用される一般的な結果は、その構造と対称性によって特徴的に異なることを示し、前の研究に存在しない$o(d^{-1/2})$-eigenvalue項を考慮し、解析の下位値を示す。 o-極小構造について述べ、証明された理論的結果は、全ての接弧からなる集合は位相的に十分に微妙であり、接弧の数値的構成が可能であり、最終的に両圏の極小が隣接する臨界点に対してどのように配置されているかの比較である。

関連論文リスト

Inequalities for Optimization of Classification Algorithms: A Perspective Motivated by Diagnostic Testing [0.0]
診断における2つの主要なタスクが、混乱(またはエラー)行列$boldsymbol rm P$の変動の観点から再キャスト可能であることを示す。行列 $mathbb I-boldsymbol rm P$ の最大の Gershgorin 半径 $boldsymbol rho_m$ は、分類と有価値推定の両方について一様誤差境界が得られることを示す。
論文参考訳（メタデータ） (2025-08-01T20:51:32Z)
Locally minimax optimal and dimension-agnostic discrete argmin inference [33.17951971728784]
この論文は基本的な推論問題に取り組む:$d$次元ベクトルから未知の平均$boldsymbolmu$を持つ$d$次元ベクトルから$n$の観測を与えられると、$boldsymbolmu$の最小成分に対応する指数に対する信頼セットを形成する必要がある。双対性により、$mu_r$が最小かどうかに関わらず、$r$の$1,ldots,d$に対して、これをテストに還元する。我々は$d$が$n$でスケールするか、$boldの任意の関係にかかわらず、妥当性を維持する「次元に依存しない」テストを提案する。
論文参考訳（メタデータ） (2025-03-27T16:06:07Z)
Towards a Sharp Analysis of Offline Policy Learning for $f$-Divergence-Regularized Contextual Bandits [49.96531901205305]
我々は$f$-divergence-regularized offline policy learningを分析する。逆Kullback-Leibler (KL) の発散に対して、単極集中性の下での最初の$tildeO(epsilon-1)$サンプル複雑性を与える。これらの結果は,$f$-divergence-regularized policy learningの包括的理解に向けて大きな一歩を踏み出したものと考えられる。
論文参考訳（メタデータ） (2025-02-09T22:14:45Z)
A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。 i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文参考訳（メタデータ） (2024-04-18T16:46:08Z)
Adam-like Algorithm with Smooth Clipping Attains Global Minima: Analysis Based on Ergodicity of Functional SDEs [0.0]
我々は,グローバル化された非-1損失関数を切断したAdam型アルゴリズムが正規化された非-1エラー形式を最小化することを示す。また、スムーズな群のエルゴード理論を適用して、逆温度と時間を学ぶためのアプローチを研究する。
論文参考訳（メタデータ） (2023-11-29T14:38:59Z)
Detection-Recovery Gap for Planted Dense Cycles [72.4451045270967]
期待帯域幅$n tau$とエッジ密度$p$をエルドホス=R'enyiグラフ$G(n,q)$に植え込むモデルを考える。低次アルゴリズムのクラスにおいて、関連する検出および回復問題に対する計算しきい値を特徴付ける。
論文参考訳（メタデータ） (2023-02-13T22:51:07Z)
Causal Bandits for Linear Structural Equation Models [58.2875460517691]
本稿では,因果図形モデルにおける最適な介入順序を設計する問題について検討する。グラフの構造は知られており、ノードは$N$である。頻繁性(UCBベース)とベイズ的設定に2つのアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-08-26T16:21:31Z)
Best Policy Identification in Linear MDPs [70.57916977441262]
縮退した線形マルコフ+デルタ決定における最適同定問題について, 生成モデルに基づく固定信頼度設定における検討を行った。複雑な非最適化プログラムの解としての下位境界は、そのようなアルゴリズムを考案する出発点として用いられる。
論文参考訳（メタデータ） (2022-08-11T04:12:50Z)
Origins of Low-dimensional Adversarial Perturbations [17.17170592140042]
分類における低次元対向摂動現象について検討した。目標は、分類器を騙して、指定されたクラスからの入力のゼロではない割合でその決定を反転させることである。任意の部分空間のばかばかし率の低いバウンドを計算する。
論文参考訳（メタデータ） (2022-03-25T17:02:49Z)
Analytic Study of Families of Spurious Minima in Two-Layer ReLU Neural Networks [15.711517003382484]
ヘッセンスペクトルは、$d$で成長する$Theta(d)$固有値を除いて、正近傍に集中していることが示される。これにより、分岐理論の強力な道具を用いてミニマの作成と消滅が可能となる。
論文参考訳（メタデータ） (2021-07-21T22:05:48Z)
Lattice partition recovery with dyadic CART [79.96359947166592]
我々は、$d$次元格子上の加法ガウス雑音によって破損したピースワイド定値信号について検討する。この形式のデータは、多くのアプリケーションで自然に発生し、統計処理や信号処理の文献において、信号の検出やテスト、ノイズの除去、推定といったタスクが広く研究されている。本稿では,未知の信号の一貫性領域によって誘導される格子の分割を推定する,分割回復の問題について考察する。我々は、DCARTベースの手順が、下位分割を$sigma2 k*の順序で一貫して推定することを証明した。
論文参考訳（メタデータ） (2021-05-27T23:41:01Z)
Agnostic Learning of Halfspaces with Gradient Descent via Soft Margins [92.7662890047311]
勾配降下は、分類誤差$tilde O(mathsfOPT1/2) + varepsilon$ in $mathrmpoly(d,1/varepsilon)$ time and sample complexity.
論文参考訳（メタデータ） (2020-10-01T16:48:33Z)
Analytic Characterization of the Hessian in Shallow ReLU Models: A Tale of Symmetry [9.695960412426672]
我々は,スプリアスミニマの様々な家系でヘッセンを解析的に特徴付ける。特に、$dge k$ 標準ガウス入力について、 (a) ヘッセンの $dk$ 固有値の内、$dk - O(d)$ が 0 に近づき、 (b) $Omega(d)$ 固有値は $k$ で線型的に増加することを証明している。
論文参考訳（メタデータ） (2020-08-04T20:08:35Z)
Symmetry & critical points for a model shallow neural network [9.695960412426672]
我々は、2層ReLUネットワークに$kの隠れニューロンを組み込む際の最適化問題を考察する。このようなモデルで示されるリッチ対称性を利用して、臨界点の様々な族を同定する。ある種のスプリアスミニマの損失関数は$k-1$のようにゼロに崩壊するが、別の場合では損失関数は厳密な正の定数に収束する。
論文参考訳（メタデータ） (2020-03-23T23:13:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。