論文の概要: A Convexity-dependent Two-Phase Training Algorithm for Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2510.25366v1
- Date: Wed, 29 Oct 2025 10:37:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.400522
- Title: A Convexity-dependent Two-Phase Training Algorithm for Deep Neural Networks
- Title(参考訳): 深部ニューラルネットワークのための凸性依存型2相学習アルゴリズム
- Authors: Tomas Hrycej, Bernhard Bermeitinger, Massimo Pavone, Götz-Henrik Wiegand, Siegfried Handschuh,
- Abstract要約: 機械学習の主な課題は、データに適合するモデルを測定する損失関数を効率的に基底化することである。
本研究では,スワップを最小化する初期最適勾配から,非現実性凸性を最小化する新しい枠組みを提案する。
- 参考スコア(独自算出の注目度): 1.7701764220380956
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The key task of machine learning is to minimize the loss function that measures the model fit to the training data. The numerical methods to do this efficiently depend on the properties of the loss function. The most decisive among these properties is the convexity or non-convexity of the loss function. The fact that the loss function can have, and frequently has, non-convex regions has led to a widespread commitment to non-convex methods such as Adam. However, a local minimum implies that, in some environment around it, the function is convex. In this environment, second-order minimizing methods such as the Conjugate Gradient (CG) give a guaranteed superlinear convergence. We propose a novel framework grounded in the hypothesis that loss functions in real-world tasks swap from initial non-convexity to convexity towards the optimum. This is a property we leverage to design an innovative two-phase optimization algorithm. The presented algorithm detects the swap point by observing the gradient norm dependence on the loss. In these regions, non-convex (Adam) and convex (CG) algorithms are used, respectively. Computing experiments confirm the hypothesis that this simple convexity structure is frequent enough to be practically exploited to substantially improve convergence and accuracy.
- Abstract(参考訳): 機械学習の主な課題は、トレーニングデータに適合するモデルを測定する損失関数を最小限にすることである。
これを効率的に行う数値法は損失関数の性質に依存する。
これらの性質の中で最も重要なものは、損失関数の凸性または非凸性である。
損失関数が非凸領域を持つことができ、かつ頻繁に存在するという事実は、アダムのような非凸手法への広範なコミットメントにつながっている。
しかし、局所最小は、その周りのある環境において、関数が凸であることを意味する。
この環境では、共役勾配(CG)のような二階最小化法は、保証された超線型収束を与える。
実世界のタスクにおける損失関数は、初期非凸性から最適性への凸性に置き換わる、という仮説に基づく新しい枠組みを提案する。
これは革新的な2相最適化アルゴリズムの設計に利用した特性である。
提案アルゴリズムは、損失の勾配ノルム依存性を観察してスワップポイントを検出する。
これらの領域では、非凸(Adam)と凸(CG)アルゴリズムがそれぞれ使用される。
計算機実験により、この単純な凸構造は収束と精度を大幅に向上させるのに十分な頻度で活用できるという仮説が確定した。
関連論文リスト
- Deep Loss Convexification for Learning Iterative Models [11.36644967267829]
点雲登録のための反復的最近点(ICP)のような反復的手法は、しばしば悪い局所最適性に悩まされる。
我々は,各地真実の周囲に凸景観を形成する学習を提案する。
論文 参考訳(メタデータ) (2024-11-16T01:13:04Z) - Convex Relaxations of ReLU Neural Networks Approximate Global Optima in Polynomial Time [45.72323731094864]
本稿では,2層ReLULUネットワーク間における重み減衰と凸緩和の最適性ギャップについて検討する。
私たちの研究は、なぜローカルメソッドがうまく機能するのかを理解することに新たな光を当てています。
論文 参考訳(メタデータ) (2024-02-06T01:29:35Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Accelerated Neural Network Training with Rooted Logistic Objectives [13.400503928962756]
我々は、少なくともロジスティック損失と同じくらい厳密なエムの厳密凸関数列を導出する。
その結果,根付き損失関数による学習はより早く収束し,性能が向上した。
論文 参考訳(メタデータ) (2023-10-05T20:49:48Z) - Universal Online Learning with Gradient Variations: A Multi-layer Online Ensemble Approach [57.92727189589498]
本稿では,2段階の適応性を持つオンライン凸最適化手法を提案する。
我々は$mathcalO(log V_T)$, $mathcalO(d log V_T)$, $hatmathcalO(sqrtV_T)$ regret bounds for strong convex, exp-concave and convex loss function。
論文 参考訳(メタデータ) (2023-07-17T09:55:35Z) - Computationally Efficient and Statistically Optimal Robust
High-Dimensional Linear Regression [15.389011827844572]
重み付き雑音や客観的腐敗の下での高テール線形回帰は、どちらも統計的に困難である。
本稿では,ノイズガウスあるいは重度1+エプシロン回帰問題に対するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-10T14:31:03Z) - Can Decentralized Stochastic Minimax Optimization Algorithms Converge
Linearly for Finite-Sum Nonconvex-Nonconcave Problems? [56.62372517641597]
分散化されたミニマックス最適化は、幅広い機械学習に応用されているため、ここ数年で活発に研究されている。
本稿では,非コンカブ問題に対する2つの新しい分散化ミニマックス最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-24T02:19:39Z) - The Geometry and Calculus of Losses [10.451984251615512]
本稿では,二項・多クラス分類とクラス確率推定問題に対する損失関数の理論を開発する。
視点は3つの新しい機会を提供する。
これにより、これまで気付かなかったと思われる損失と(反)ノルムの基本的な関係の開発が可能になる。
第二に、凸集合の計算によって引き起こされる損失の計算の開発を可能にする。
第三に、パースペクティブは、損失を定義する凸集合の極双対から導かれる極の損失関数の自然な理論につながる。
論文 参考訳(メタデータ) (2022-09-01T05:57:19Z) - Universal Online Convex Optimization Meets Second-order Bounds [74.0120666722487]
ユニバーサルオンライン凸最適化のための簡単な戦略を提案する。
主要なアイデアは、オリジナルのオンライン機能を処理するための専門家のセットを構築し、線形化された損失に対してメタアルゴリズムをデプロイすることである。
このようにして、私たちはブラックボックスの専門家として、既成のオンライン問題解決者をプラグインして、問題依存の後悔の限界を提供することができます。
論文 参考訳(メタデータ) (2021-05-08T11:43:49Z) - Provably Convergent Working Set Algorithm for Non-Convex Regularized
Regression [0.0]
本稿では、収束保証付き非正則正規化器のためのワーキングセットアルゴリズムを提案する。
その結果,ブロックコーディネートや勾配ソルバの完全解法と比較して高い利得を示した。
論文 参考訳(メタデータ) (2020-06-24T07:40:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。