論文の概要: Block Coordinate Descent for Neural Networks Provably Finds Global Minima
- arxiv url: http://arxiv.org/abs/2510.22667v1
- Date: Sun, 26 Oct 2025 13:06:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 19:54:32.548685
- Title: Block Coordinate Descent for Neural Networks Provably Finds Global Minima
- Title(参考訳): ニューラルネットワークのブロックコーディネートディフレッシュは、おそらく地球規模のミニマを見つける
- Authors: Shunta Akiyama,
- Abstract要約: 我々は、ディープニューラルネットワークのトレーニングのためのブロック座標降下(BCD)アルゴリズムを検討する。
我々は、厳密に単調に増加する活性化関数の下で、新しいグローバル収束保証を提供する。
- 参考スコア(独自算出の注目度): 6.430130814523795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we consider a block coordinate descent (BCD) algorithm for training deep neural networks and provide a new global convergence guarantee under strictly monotonically increasing activation functions. While existing works demonstrate convergence to stationary points for BCD in neural networks, our contribution is the first to prove convergence to global minima, ensuring arbitrarily small loss. We show that the loss with respect to the output layer decreases exponentially while the loss with respect to the hidden layers remains well-controlled. Additionally, we derive generalization bounds using the Rademacher complexity framework, demonstrating that BCD not only achieves strong optimization guarantees but also provides favorable generalization performance. Moreover, we propose a modified BCD algorithm with skip connections and non-negative projection, extending our convergence guarantees to ReLU activation, which are not strictly monotonic. Empirical experiments confirm our theoretical findings, showing that the BCD algorithm achieves a small loss for strictly monotonic and ReLU activations.
- Abstract(参考訳): 本稿では、ディープニューラルネットワークのトレーニングのためのブロック座標降下(BCD)アルゴリズムを検討し、厳密に単調に増加するアクティベーション関数の下で、新しいグローバル収束保証を提供する。
既存の研究は、ニューラルネットワークにおけるBCDの定常点への収束を示しているが、我々の貢献は、グローバルなミニマへの収束を初めて証明し、任意に小さな損失を確実にする。
本研究では, 隠蔽層に対する損失が制御されたまま, 出力層に対する損失が指数関数的に減少することを示す。
さらに、Radecher複雑性フレームワークを用いて一般化境界を導出し、BCDが強い最適化保証を達成するだけでなく、良好な一般化性能を提供することを示す。
さらに,接続をスキップし,非負のプロジェクションを施した改良型BCDアルゴリズムを提案し,収束保証を厳密な単調ではないReLUアクティベーションに拡張する。
実験により,BCDアルゴリズムは厳密な単調およびReLUアクティベーションの損失が小さいことが確認された。
関連論文リスト
- An Accelerated Alternating Partial Bregman Algorithm for ReLU-based Matrix Decomposition [0.0]
本稿では,非負行列上に補正されたスパース低ランク特性について検討する。
本稿では,クラスタリングと圧縮タスクに有用な構造を取り入れた新しい正規化項を提案する。
我々は、任意の$Lge 1$に対して常に持つ$L$-smoothプロパティを維持しながら、対応する閉形式解を導出する。
論文 参考訳(メタデータ) (2025-03-04T08:20:34Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Generalization Ability of Wide Residual Networks [5.699259766376014]
本稿では,ReLU アクティベーション関数を持つ $mathbbSd-1$ 上での広域残差ネットワークの一般化能力について検討する。
幅$mrightarrowinfty$のように、残余ネットワークカーネルは、残余ニューラルネットワークカーネル(RNTK)に均一に収束することを示す。
論文 参考訳(メタデータ) (2023-05-29T15:01:13Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - Improved Overparametrization Bounds for Global Convergence of Stochastic
Gradient Descent for Shallow Neural Networks [1.14219428942199]
本研究では,1つの隠れ層フィードフォワードニューラルネットワークのクラスに対して,勾配降下アルゴリズムのグローバル収束に必要な過パラメトリゼーション境界について検討する。
論文 参考訳(メタデータ) (2022-01-28T11:30:06Z) - Improved Branch and Bound for Neural Network Verification via Lagrangian
Decomposition [161.09660864941603]
ニューラルネットワークの入出力特性を公式に証明するためのブランチとバウンド(BaB)アルゴリズムのスケーラビリティを改善します。
活性化に基づく新しい分岐戦略とBaBフレームワークであるブランチとデュアルネットワーク境界(BaDNB)を提案する。
BaDNBは、従来の完全検証システムを大きなマージンで上回り、対数特性で平均検証時間を最大50倍に削減した。
論文 参考訳(メタデータ) (2021-04-14T09:22:42Z) - Optimal Rates for Averaged Stochastic Gradient Descent under Neural
Tangent Kernel Regime [50.510421854168065]
平均勾配勾配勾配は極小収束率が得られることを示す。
本稿では、ReLUネットワークのNTKで指定されたターゲット関数を最適収束速度で学習できることを示す。
論文 参考訳(メタデータ) (2020-06-22T14:31:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。