論文の概要: Don't Be So Positive: Negative Step Sizes in Second-Order Methods
- arxiv url: http://arxiv.org/abs/2411.11224v1
- Date: Mon, 18 Nov 2024 01:27:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:34:38.711348
- Title: Don't Be So Positive: Negative Step Sizes in Second-Order Methods
- Title(参考訳): 肯定的でない:2階法における負のステップサイズ
- Authors: Betty Shea, Mark Schmidt,
- Abstract要約: 負のステップサイズを用いることは、一般的なヘッセン変換法よりも効果的であることが示される。
負のステップサイズを用いることは、一般的なヘッセン変換法よりも効果的であることが実験的に実証された。
- 参考スコア(独自算出の注目度): 9.849498498869258
- License:
- Abstract: The value of second-order methods lies in the use of curvature information. Yet, this information is costly to extract and once obtained, valuable negative curvature information is often discarded so that the method is globally convergent. This limits the effectiveness of second-order methods in modern machine learning. In this paper, we show that second-order and second-order-like methods are promising optimizers for neural networks provided that we add one ingredient: negative step sizes. We show that under very general conditions, methods that produce ascent directions are globally convergent when combined with a Wolfe line search that allows both positive and negative step sizes. We experimentally demonstrate that using negative step sizes is often more effective than common Hessian modification methods.
- Abstract(参考訳): 2階法の価値は曲率情報の利用にある。
しかし、この情報は高コストで抽出され、一度得られれば、価値ある負の曲率情報はしばしば破棄され、その方法がグローバルに収束する。
これにより、現代の機械学習における二階法の有効性が制限される。
本稿では,ニューラルネットワークに負のステップサイズを加えた場合,二階法と二階法のような手法が有望であることを示す。
非常に一般的な条件下では、上昇方向を生成する方法は、正と負の両方のステップサイズを許容するウルフ線探索と組み合わせると、大域的に収束することを示す。
負のステップサイズを用いることは、一般的なヘッセン変換法よりも効果的であることが実験的に実証された。
関連論文リスト
- Natural Gradient Methods: Perspectives, Efficient-Scalable
Approximations, and Analysis [0.0]
Natural Gradient Descentは、情報幾何学によって動機付けられた2次最適化手法である。
一般的に使用されるヘッセン語の代わりにフィッシャー情報マトリックスを使用している。
2階法であることは、膨大な数のパラメータとデータを扱う問題で直接使用されることが不可能である。
論文 参考訳(メタデータ) (2023-03-06T04:03:56Z) - Explicit Second-Order Min-Max Optimization Methods with Optimal Convergence Guarantee [86.05440220344755]
我々は,非制約のmin-max最適化問題のグローバルなサドル点を求めるために,不正確な正規化ニュートン型手法を提案し,解析する。
提案手法は有界集合内に留まるイテレートを生成し、その反復は制限関数の項で$O(epsilon-2/3)$内の$epsilon$-saddle点に収束することを示す。
論文 参考訳(メタデータ) (2022-10-23T21:24:37Z) - Intersection of Parallels as an Early Stopping Criterion [64.8387564654474]
そこで本研究では,検証セットを必要とせずに,トレーニングイテレーションの早期停止点を見つける手法を提案する。
幅広い学習率において,コサイン距離基準 (CDC) と呼ばれる手法は,比較したすべての手法よりも平均的な一般化に寄与する。
論文 参考訳(メタデータ) (2022-08-19T19:42:41Z) - DRSOM: A Dimension Reduced Second-Order Method [13.778619250890406]
信頼的な枠組みの下では,2次法の収束を保ちながら,数方向の情報のみを用いる。
理論的には,この手法は局所収束率と大域収束率が$O(epsilon-3/2)$であり,第1次条件と第2次条件を満たすことを示す。
論文 参考訳(メタデータ) (2022-07-30T13:05:01Z) - Toward Learning Robust and Invariant Representations with Alignment
Regularization and Data Augmentation [76.85274970052762]
本論文はアライメント正則化の選択肢の増大を動機としている。
我々は、ロバスト性および不変性の次元に沿って、いくつかの人気のある設計選択のパフォーマンスを評価する。
我々はまた、現実的と考える仮定の下で経験的な研究を補完するために、アライメント正則化の挙動を正式に分析する。
論文 参考訳(メタデータ) (2022-06-04T04:29:19Z) - Understanding CNNs from excitations [12.25690353533472]
サリエンシマップは、畳み込みニューラルネットワークの決定を解明するための非常に効果的なアプローチであることが証明されている。
本稿では, 各層に対して正負励起を直接抽出できる, 正負励起という新しい概念を提案する。
論文 参考訳(メタデータ) (2022-05-02T14:27:35Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - Distributed Second Order Methods with Fast Rates and Compressed
Communication [6.069611493148631]
分散最適化のための通信効率の高い第2次手法を複数開発する。
我々は大域的な部分線型および線形収束率と高速超線形速度を証明した。
結果は実データセットでの実験結果と共にサポートされます。
論文 参考訳(メタデータ) (2021-02-14T14:06:45Z) - Second-order Neural Network Training Using Complex-step Directional
Derivative [41.4333906662624]
本稿では,2次ニューラルネットワークトレーニングのための数値アルゴリズムを提案する。
複素ステップ有限差分を用いてヘッセン計算の実践的障害に取り組む。
提案手法は,ディープラーニングと数値最適化のための新しいアルゴリズムを広範囲に導入すると考えられる。
論文 参考訳(メタデータ) (2020-09-15T13:46:57Z) - Random extrapolation for primal-dual coordinate descent [61.55967255151027]
本稿では,データ行列の疎度と目的関数の好適な構造に適応する,ランダムに外挿した原始-双対座標降下法を提案する。
一般凸凹の場合, 主対差と目的値に対するシーケンスのほぼ確実に収束と最適サブ線形収束率を示す。
論文 参考訳(メタデータ) (2020-07-13T17:39:35Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。