論文の概要: Flavors of Margin: Implicit Bias of Steepest Descent in Homogeneous Neural Networks
- arxiv url: http://arxiv.org/abs/2410.22069v1
- Date: Tue, 29 Oct 2024 14:28:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:42:25.350459
- Title: Flavors of Margin: Implicit Bias of Steepest Descent in Homogeneous Neural Networks
- Title(参考訳): マージンのフレーバー:同質ニューラルネットワークにおけるステッペスト蛍光の含意バイアス
- Authors: Nikolaos Tsilivis, Gal Vardi, Julia Kempe,
- Abstract要約: 本稿では,勾配降下,符号降下,座標降下を含む急勾配降下アルゴリズムの一般家系の暗黙バイアスについて検討する。
ネットワークが完全なトレーニング精度に達すると,アルゴリズム依存の幾何マージンが増加し始めることを実証する。
- 参考スコア(独自算出の注目度): 19.185059111021854
- License:
- Abstract: We study the implicit bias of the general family of steepest descent algorithms, which includes gradient descent, sign descent and coordinate descent, in deep homogeneous neural networks. We prove that an algorithm-dependent geometric margin starts increasing once the networks reach perfect training accuracy and characterize the late-stage bias of the algorithms. In particular, we define a generalized notion of stationarity for optimization problems and show that the algorithms progressively reduce a (generalized) Bregman divergence, which quantifies proximity to such stationary points of a margin-maximization problem. We then experimentally zoom into the trajectories of neural networks optimized with various steepest descent algorithms, highlighting connections to the implicit bias of Adam.
- Abstract(参考訳): 我々は, 勾配降下, 符号降下, 座標降下を含む, 急勾配降下アルゴリズムの一般家系の暗黙バイアスを, 深部同質ニューラルネットワークにおいて検討した。
ネットワークが完全なトレーニング精度に達すると、アルゴリズム依存の幾何マージンが増加し始め、アルゴリズムの後期偏差を特徴づける。
特に、最適化問題に対する定常性の一般化概念を定義し、そのアルゴリズムが(一般化された)ブレグマン発散を漸進的に減少させることを示す。
次に、さまざまな急勾配アルゴリズムで最適化されたニューラルネットワークの軌跡を実験的に拡大し、Adamの暗黙バイアスとのつながりを強調します。
関連論文リスト
- Approximate Contraction of Arbitrary Tensor Networks with a Flexible and Efficient Density Matrix Algorithm [8.329034093208826]
低ランク近似を用いてテンソルネットワークの収縮を効率的に近似する手法を提案する。
提案アルゴリズムは,低ランク近似を行う場合,環境の大部分を組み込む柔軟性を有する。
論文 参考訳(メタデータ) (2024-06-14T07:13:52Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - A Compound Gaussian Least Squares Algorithm and Unrolled Network for
Linear Inverse Problems [1.283555556182245]
本稿では,線形逆問題に対する2つの新しいアプローチを提案する。
1つ目は、正規化された最小二乗目的関数を最小化する反復アルゴリズムである。
2つ目は、反復アルゴリズムの「アンロール」または「アンフォールディング」に対応するディープニューラルネットワークである。
論文 参考訳(メタデータ) (2023-05-18T17:05:09Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - Improved Overparametrization Bounds for Global Convergence of Stochastic
Gradient Descent for Shallow Neural Networks [1.14219428942199]
本研究では,1つの隠れ層フィードフォワードニューラルネットワークのクラスに対して,勾配降下アルゴリズムのグローバル収束に必要な過パラメトリゼーション境界について検討する。
論文 参考訳(メタデータ) (2022-01-28T11:30:06Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - Strong overall error analysis for the training of artificial neural
networks via random initializations [3.198144010381572]
その結果,同じ近似速度を得るためには,ニューラルネットワークの深さがはるかに遅くなるだけでよいことがわかった。
i.i.dの任意の最適化アルゴリズムの場合、結果は保持される。
ランダム初期化。
論文 参考訳(メタデータ) (2020-12-15T17:34:16Z) - A Dynamical View on Optimization Algorithms of Overparameterized Neural
Networks [23.038631072178735]
我々は、一般的に使用される最適化アルゴリズムの幅広いクラスについて考察する。
その結果、ニューラルネットワークの収束挙動を利用することができる。
このアプローチは他の最適化アルゴリズムやネットワーク理論にも拡張できると考えています。
論文 参考訳(メタデータ) (2020-10-25T17:10:22Z) - Second-Order Guarantees in Centralized, Federated and Decentralized
Nonconvex Optimization [64.26238893241322]
単純なアルゴリズムは、多くの文脈において優れた経験的結果をもたらすことが示されている。
いくつかの研究は、非最適化問題を研究するための厳密な分析的正当化を追求している。
これらの分析における重要な洞察は、摂動が局所的な降下アルゴリズムを許容する上で重要な役割を担っていることである。
論文 参考訳(メタデータ) (2020-03-31T16:54:22Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。