論文の概要: A Derandomization Framework for Structure Discovery: Applications in Neural Networks and Beyond
- arxiv url: http://arxiv.org/abs/2510.19382v1
- Date: Wed, 22 Oct 2025 08:55:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.438867
- Title: A Derandomization Framework for Structure Discovery: Applications in Neural Networks and Beyond
- Title(参考訳): 構造発見のための非ランダム化フレームワーク:ニューラルネットワークなどへの応用
- Authors: Nikos Tsikouras, Yorgos Pantis, Ioannis Mitliagkas, Christos Tzamos,
- Abstract要約: 構造発見の側面に注目し、より弱い仮定の下で研究する。
私たちのアプローチの中核は、キー$textitderandomization$ lemmaです。
この補題は構造発見を直接説明し、他の領域で直ちに適用することができる。
- 参考スコア(独自算出の注目度): 25.592330047318274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the dynamics of feature learning in neural networks (NNs) remains a significant challenge. The work of (Mousavi-Hosseini et al., 2023) analyzes a multiple index teacher-student setting and shows that a two-layer student attains a low-rank structure in its first-layer weights when trained with stochastic gradient descent (SGD) and a strong regularizer. This structural property is known to reduce sample complexity of generalization. Indeed, in a second step, the same authors establish algorithm-specific learning guarantees under additional assumptions. In this paper, we focus exclusively on the structure discovery aspect and study it under weaker assumptions, more specifically: we allow (a) NNs of arbitrary size and depth, (b) with all parameters trainable, (c) under any smooth loss function, (d) tiny regularization, and (e) trained by any method that attains a second-order stationary point (SOSP), e.g.\ perturbed gradient descent (PGD). At the core of our approach is a key $\textit{derandomization}$ lemma, which states that optimizing the function $\mathbb{E}_{\mathbf{x}} \left[g_{\theta}(\mathbf{W}\mathbf{x} + \mathbf{b})\right]$ converges to a point where $\mathbf{W} = \mathbf{0}$, under mild conditions. The fundamental nature of this lemma directly explains structure discovery and has immediate applications in other domains including an end-to-end approximation for MAXCUT, and computing Johnson-Lindenstrauss embeddings.
- Abstract(参考訳): ニューラルネットワーク(NN)における機能学習のダイナミクスを理解することは、依然として大きな課題である。
The work of (Mousavi-Hosseini et al , 2023) analysiss a multiple index teacher-student set and shows that a two-layer students at a low-rank structure in its first-layer weights when training with stochastic gradient descent (SGD) and a strong regularizer。
この構造特性は、一般化のサンプルの複雑さを減らすことが知られている。
実際、2番目のステップでは、同じ著者が追加の仮定の下でアルゴリズム固有の学習保証を確立する。
本稿では,構造発見の側面にのみ焦点をあて,より弱い仮定の下で研究する。
(a)任意の大きさと深さのNN。
(b)全てのパラメータをトレーニングできる。
(c) どんなスムーズな損失関数の下でも
(d)小さな正規化、そして
(e) 2階定常点(SOSP)、e g \摂動勾配降下(PGD)を達成する方法によって訓練された。
私たちのアプローチの中核は、キー $\textit{derandomization}$ lemma であり、これは函数 $\mathbb{E}_{\mathbf{x}} \left[g_{\theta}(\mathbf{W}\mathbf{x} + \mathbf{b})\right]$ が、穏やかな条件下で $\mathbf{W} = \mathbf{0}$ となる点に収束するというものである。
この補題の基本的な性質は構造発見を直接説明し、MAXCUTのエンドツーエンド近似やJohnson-Lindenstrauss埋め込みの計算など他の領域に即時適用することができる。
関連論文リスト
- Sharp Generalization for Nonparametric Regression in Interpolation Space by Over-Parameterized Neural Networks Trained with Preconditioned Gradient Descent and Early Stopping [15.975065054204753]
アルゴリズムによる保証を訓練した過パラメトリック化された2層ニューラルネットワークを用いて,非回帰について検討する。
我々は,早期停止機能を備えた新しいプレコンディショニンググレーディエント・ディフレッシュ(PGD)アルゴリズムを用いてニューラルネットワークをトレーニングすることにより,高い回帰率が得られることを示した。
論文 参考訳(メタデータ) (2024-07-16T03:38:34Z) - Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - A duality framework for analyzing random feature and two-layer neural networks [7.400520323325074]
我々は$mathcalF_p,pi$およびBarron空間内の関数の学習問題を考察する。
近似と推定の二重同値を確立し、それを用いて先行する関数空間の学習を研究する。
論文 参考訳(メタデータ) (2023-05-09T17:41:50Z) - A framework for overparameterized learning [0.0]
ディープニューラルネットワークの成功に関する説明は、理論的機械学習における中心的な問題である。
本稿では,多くの一般的な問題をカバーするのに十分な,プロトタイプ学習問題からなるフレームワークを提案する。
次に、教師付き学習、変分オートエンコーダ、勾配ペナルティによるトレーニングがプロトタイプ問題に変換可能であることを示す。
論文 参考訳(メタデータ) (2022-05-26T17:17:46Z) - Complexity of Finding Stationary Points of Nonsmooth Nonconvex Functions [84.49087114959872]
非滑らかで非滑らかな関数の定常点を見つけるための最初の非漸近解析を提供する。
特に、アダマール半微分可能函数(おそらく非滑らか関数の最大のクラス)について研究する。
論文 参考訳(メタデータ) (2020-02-10T23:23:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。