論文の概要: Composing Global Optimizers to Reasoning Tasks via Algebraic Objects in Neural Nets
- arxiv url: http://arxiv.org/abs/2410.01779v3
- Date: Tue, 03 Dec 2024 20:19:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:06:04.483584
- Title: Composing Global Optimizers to Reasoning Tasks via Algebraic Objects in Neural Nets
- Title(参考訳): ニューラルネットワークにおける代数的物体によるタスク推論のためのグローバル最適化器の構成
- Authors: Yuandong Tian,
- Abstract要約: 二次活性化と損失$L$の2層ニューラルネットワークに対する解空間のリッチ代数構造を証明した。
私たちはこのフレームワークをCoGO(Composing Globals)として作りました。
2層ネットワークの隠蔽ノード数に対する重み空間は半環代数構造を備えており、最適化される損失関数は単項ポテンシャルから成り立っていることを示す。
- 参考スコア(独自算出の注目度): 37.22183518721069
- License:
- Abstract: We prove rich algebraic structures of the solution space for 2-layer neural networks with quadratic activation and $L_2$ loss, trained on reasoning tasks in Abelian group (e.g., modular addition). Such a rich structure enables analytical construction of global optimal solutions from partial solutions that only satisfy part of the loss, despite its high nonlinearity. We coin the framework as CoGO (Composing Global Optimizers). Specifically, we show that the weight space over different numbers of hidden nodes of the 2-layer network is equipped with a semi-ring algebraic structure, and the loss function to be optimized consists of monomial potentials, which are ring homomorphism, allowing partial solutions to be composed into global ones by ring addition and multiplication. Our experiments show that around $95\%$ of the solutions obtained by gradient descent match exactly our theoretical constructions. Although the global optimizers constructed only required a small number of hidden nodes, our analysis on gradient dynamics shows that over-parameterization asymptotically decouples training dynamics and is beneficial. We further show that training dynamics favors simpler solutions under weight decay, and thus high-order global optimizers such as perfect memorization are unfavorable. Code can be found at https://github.com/facebookresearch/luckmatters/tree/yuandong3/ssl/real-dataset.
- Abstract(参考訳): 2層ニューラルネットワークの2次活性化と損失$L_2$の解空間のリッチ代数的構造を証明し、アベリア群の推論タスク(モジュラー加算など)を訓練した。
このようなリッチな構造は、その高い非線形性にもかかわらず、損失の一部を満足する部分解から大域最適解を解析的に構築することができる。
私たちはこのフレームワークをCoGO(Composing Global Optimizers)として作りました。
具体的には、2層ネットワークの隠蔽ノード数の異なる重み空間は半環代数構造を備えており、最適化される損失関数は環準同型である単項ポテンシャルから成り、環加法と乗法により部分解を大域的に構成できることを示す。
実験の結果,勾配降下法により得られる解の約9,5 %は,我々の理論的構成と一致することがわかった。
グローバルオプティマイザの構築には少数の隠れノードしか必要としなかったが、勾配ダイナミクスの解析により、過度パラメータ化はトレーニングダイナミクスを漸近的に分離し、有用であることが示された。
さらに、トレーニング力学は、重量減衰下でのより単純な解を好んでおり、完全記憶のような高次大域最適化器は好ましくないことを示す。
コードはhttps://github.com/facebookresearch/luckmatters/tree/yuandong3/ssl/real-datasetで見ることができる。
関連論文リスト
- On the Convergence of (Stochastic) Gradient Descent for Kolmogorov--Arnold Networks [56.78271181959529]
Kolmogorov--Arnold Networks (KAN) はディープラーニングコミュニティで注目されている。
実験により、勾配降下(SGD)により最適化されたカンが、ほぼゼロに近い訓練損失を達成できることが示された。
論文 参考訳(メタデータ) (2024-10-10T15:34:10Z) - How Can Deep Neural Networks Fail Even With Global Optima? [0.0]
浅いニューラルネットワークの表現力は、簡単なトリックを使って、どんな深さのネットワークにも拡張する。
我々は、グローバルな最適性があるにもかかわらず、分類や関数近似の問題で未だにうまく機能しない、非常に過度に適合するディープニューラルネットワークを構築している。
論文 参考訳(メタデータ) (2024-07-23T22:44:57Z) - Does a sparse ReLU network training problem always admit an optimum? [0.0]
最適解の存在は、特にスパースReLUニューラルネットワークの文脈において、必ずしも保証されないことを示す。
特に,特定の疎度パターンを持つディープネットワークにおける最適化問題は,必ずしも最適パラメータを持つとは限らないことを示す。
論文 参考訳(メタデータ) (2023-06-05T08:01:50Z) - Decentralized Gossip-Based Stochastic Bilevel Optimization over
Communication Networks [42.76623191830371]
本稿では,ゴシップに基づく分散二段階最適化アルゴリズムを提案する。
エージェントはネットワークと外部の両方の問題を一度に解くことができる。
我々のアルゴリズムは最先端の効率とテスト精度を達成する。
論文 参考訳(メタデータ) (2022-06-22T06:38:54Z) - SiMaN: Sign-to-Magnitude Network Binarization [165.5630656849309]
重みバイナライゼーションは、高倍率重みを+1s、0sに符号化することで分析ソリューションを提供する。
二元化ネットワークの学習重みは、エントロピーを許さないラプラシアン分布に概ね従うことが証明される。
CIFAR-10 と ImageNet を用いて,シマナライゼーション (SiMaN) と呼ばれる手法の評価を行った。
論文 参考訳(メタデータ) (2021-02-16T07:03:51Z) - Neural Spectrahedra and Semidefinite Lifts: Global Convex Optimization
of Polynomial Activation Neural Networks in Fully Polynomial-Time [31.94590517036704]
2次活性化を持つ2層数値ネットワークの完全凸最適化定式化を考案する。
本研究では,全入力データの複雑度とサンプルサイズが半定常的なニューラル・グローバル最適化であることを示した。
提案手法は, 標準バックプロパゲーション法に比べ, テスト精度が大幅に向上した。
論文 参考訳(メタデータ) (2021-01-07T08:43:01Z) - The Hidden Convex Optimization Landscape of Two-Layer ReLU Neural
Networks: an Exact Characterization of the Optimal Solutions [51.60996023961886]
コーン制約のある凸最適化プログラムを解くことにより,グローバルな2層ReLUニューラルネットワークの探索が可能であることを示す。
我々の分析は新しく、全ての最適解を特徴づけ、最近、ニューラルネットワークのトレーニングを凸空間に持ち上げるために使われた双対性に基づく分析を活用できない。
論文 参考訳(メタデータ) (2020-06-10T15:38:30Z) - Generative Adversarial Imitation Learning with Neural Networks: Global
Optimality and Convergence Rate [122.73276299136568]
ジェネレーティブポリシー模倣学習(GAIL)は、特にニューラルネットワークと組み合わせた場合、実際に非常に成功している。
実験的な成功にもかかわらず、GAILとニューラルネットワークがグローバルな最適解に収束するかどうかは不明だ。
論文 参考訳(メタデータ) (2020-03-08T03:39:36Z) - Convex Geometry and Duality of Over-parameterized Neural Networks [70.15611146583068]
有限幅2層ReLUネットワークの解析のための凸解析手法を開発した。
正規化学習問題に対する最適解が凸集合の極点として特徴づけられることを示す。
高次元では、トレーニング問題は無限に多くの制約を持つ有限次元凸問題としてキャストできることが示される。
論文 参考訳(メタデータ) (2020-02-25T23:05:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。