論文の概要: Composing Global Optimizers to Reasoning Tasks via Algebraic Objects in Neural Nets
- arxiv url: http://arxiv.org/abs/2410.01779v1
- Date: Thu, 24 Oct 2024 15:35:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 15:24:18.987015
- Title: Composing Global Optimizers to Reasoning Tasks via Algebraic Objects in Neural Nets
- Title(参考訳): ニューラルネットワークにおける代数的物体によるタスク推論のためのグローバル最適化器の構成
- Authors: Yuandong Tian,
- Abstract要約: 二次活性化と損失$L$の2層ニューラルネットワークに対する解空間のリッチ代数構造を証明した。
私たちはこのフレームワークをCoGO(Composing Globals)として作りました。
2層ネットワークの隠蔽ノード数に対する重み空間は半環代数構造を備えており、最適化される損失関数は単項ポテンシャルから成り立っていることを示す。
- 参考スコア(独自算出の注目度): 37.22183518721069
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We prove rich algebraic structures of the solution space for 2-layer neural networks with quadratic activation and $L_2$ loss, trained on reasoning tasks in Abelian group (e.g., modular addition). Such a rich structure enables analytical construction of global optimal solutions from partial solutions that only satisfy part of the loss, despite its high nonlinearity. We coin the framework as CoGO (Composing Global Optimizers). Specifically, we show that the weight space over different numbers of hidden nodes of the 2-layer network is equipped with a semi-ring algebraic structure, and the loss function to be optimized consists of monomial potentials, which are ring homomorphism, allowing partial solutions to be composed into global ones by ring addition and multiplication. Our experiments show that around $95\%$ of the solutions obtained by gradient descent match exactly our theoretical constructions. Although the global optimizers constructed only required a small number of hidden nodes, our analysis on gradient dynamics shows that over-parameterization asymptotically decouples training dynamics and is beneficial. We further show that training dynamics favors simpler solutions under weight decay, and thus high-order global optimizers such as perfect memorization are unfavorable.
- Abstract(参考訳): 2層ニューラルネットワークの2次活性化と損失$L_2$の解空間のリッチ代数的構造を証明し、アベリア群の推論タスク(モジュラー加算など)を訓練した。
このようなリッチな構造は、その高い非線形性にもかかわらず、損失の一部を満足する部分解から大域最適解を解析的に構築することができる。
私たちはこのフレームワークをCoGO(Composing Global Optimizers)として作りました。
具体的には、2層ネットワークの隠蔽ノード数の異なる重み空間は半環代数構造を備えており、最適化される損失関数は環準同型である単項ポテンシャルから成り、環加法と乗法により部分解を大域的に構成できることを示す。
実験の結果,勾配降下法により得られる解の約9,5 %は,我々の理論的構成と一致することがわかった。
グローバルオプティマイザの構築には少数の隠れノードしか必要としなかったが、勾配ダイナミクスの解析により、過度パラメータ化はトレーニングダイナミクスを漸近的に分離し、有用であることが示された。
さらに、トレーニング力学は、重量減衰下でのより単純な解を好んでおり、完全記憶のような高次大域最適化器は好ましくないことを示す。
関連論文リスト
- On the Convergence of (Stochastic) Gradient Descent for Kolmogorov--Arnold Networks [56.78271181959529]
Kolmogorov--Arnold Networks (KAN) はディープラーニングコミュニティで注目されている。
実験により、勾配降下(SGD)により最適化されたカンが、ほぼゼロに近い訓練損失を達成できることが示された。
論文 参考訳(メタデータ) (2024-10-10T15:34:10Z) - Convergence of Implicit Gradient Descent for Training Two-Layer Physics-Informed Neural Networks [3.680127959836384]
暗黙の勾配降下(IGD)は、ある種のマルチスケール問題を扱う場合、共通勾配降下(GD)よりも優れる。
IGDは線形収束速度で大域的に最適解を収束することを示す。
論文 参考訳(メタデータ) (2024-07-03T06:10:41Z) - Reducing the Need for Backpropagation and Discovering Better Optima With
Explicit Optimizations of Neural Networks [4.807347156077897]
本稿では,ニューラルネットワークの最適化のための計算効率のよい代替案を提案する。
我々は、単純なフィードフォワード言語モデルに対する明確な解決策を導出する。
実験では,明示的な解がほぼ最適であることを示す。
論文 参考訳(メタデータ) (2023-11-13T17:38:07Z) - Neural Spectrahedra and Semidefinite Lifts: Global Convex Optimization
of Polynomial Activation Neural Networks in Fully Polynomial-Time [31.94590517036704]
2次活性化を持つ2層数値ネットワークの完全凸最適化定式化を考案する。
本研究では,全入力データの複雑度とサンプルサイズが半定常的なニューラル・グローバル最適化であることを示した。
提案手法は, 標準バックプロパゲーション法に比べ, テスト精度が大幅に向上した。
論文 参考訳(メタデータ) (2021-01-07T08:43:01Z) - Competitive Mirror Descent [67.31015611281225]
制約のある競合最適化には、制約の対象となる競合する目的を最小化しようとする複数のエージェントが含まれる。
本稿では, 競合ミラー降下法(CMD)を提案する。
特別の場合として、正の円錐上の問題に対する新しい競合乗法重みアルゴリズムを得る。
論文 参考訳(メタデータ) (2020-06-17T22:11:35Z) - The Hidden Convex Optimization Landscape of Two-Layer ReLU Neural
Networks: an Exact Characterization of the Optimal Solutions [51.60996023961886]
コーン制約のある凸最適化プログラムを解くことにより,グローバルな2層ReLUニューラルネットワークの探索が可能であることを示す。
我々の分析は新しく、全ての最適解を特徴づけ、最近、ニューラルネットワークのトレーニングを凸空間に持ち上げるために使われた双対性に基づく分析を活用できない。
論文 参考訳(メタデータ) (2020-06-10T15:38:30Z) - Generative Adversarial Imitation Learning with Neural Networks: Global
Optimality and Convergence Rate [122.73276299136568]
ジェネレーティブポリシー模倣学習(GAIL)は、特にニューラルネットワークと組み合わせた場合、実際に非常に成功している。
実験的な成功にもかかわらず、GAILとニューラルネットワークがグローバルな最適解に収束するかどうかは不明だ。
論文 参考訳(メタデータ) (2020-03-08T03:39:36Z) - Convex Geometry and Duality of Over-parameterized Neural Networks [70.15611146583068]
有限幅2層ReLUネットワークの解析のための凸解析手法を開発した。
正規化学習問題に対する最適解が凸集合の極点として特徴づけられることを示す。
高次元では、トレーニング問題は無限に多くの制約を持つ有限次元凸問題としてキャストできることが示される。
論文 参考訳(メタデータ) (2020-02-25T23:05:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。