Fugu-MT 論文翻訳(概要): Singularity-aware Optimization via Randomized Geometric Probing: Towards Stable Non-smooth Optimization

論文の概要: Singularity-aware Optimization via Randomized Geometric Probing: Towards Stable Non-smooth Optimization

arxiv url: http://arxiv.org/abs/2605.29547v1
Date: Thu, 28 May 2026 08:00:40 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-30 02:45:56.045223
Title: Singularity-aware Optimization via Randomized Geometric Probing: Towards Stable Non-smooth Optimization
Title（参考訳）: ランダム化幾何探索による特異性認識最適化:安定な非滑らかな最適化を目指して
Authors: Ruoran Xu, Borong She, Xiaobo Jin, Qiufeng Wang,
Abstract要約: 本研究では,Singularity-aware Adam (S-Adam)を紹介した。 S-アダムには適応減衰機構が組み込まれており、不安定な地域での更新を減速し、スムーズな盆地での高速収束を保っている。最適量子化アウェアトレーニング(QAT)と高雑音小バッチ学習の実証評価は、S-AdamがAdamWとProx-SGDを一貫して上回っていることを示している。
参考スコア（独自算出の注目度）: 8.412194372218895
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep learning optimization relies heavily on the assumption of smooth loss landscapes, a condition systematically violated by modern architectures due to non-smooth components such as ReLU activations and quantization operators. In such non-smooth regimes, adaptive optimizers such as Adam suffer from gradient chattering, violent oscillations caused by conflicting signals within the Clarke subdifferential, leading to poor convergence and suboptimal generalization. To address this, we introduce Singularity-aware Adam (S-Adam), a novel optimizer that stabilizes training by dynamically modulating step sizes based on local geometric instability. Our key contribution is the Local Geometric Instability (LGI) metric, a computationally efficient estimator of the Clarke subdifferential diameter derived from the variance of randomized directional derivatives. S-Adam incorporates an adaptive damping mechanism exp(-$λ$$ρ$) that decelerates updates in high-instability regions while preserving fast convergence in smooth basins. We provide a rigorous convergence analysis using differential inclusions, proving that S-Adam converges almost surely to ($δ$,$ε$)-Clarke stationary points at the optimal O(1/$\sqrt(T)$) rate. Empirical evaluations on Quantization-Aware Training (QAT) and high-noise small-batch learning demonstrate that S-Adam consistently outperforms AdamW and Prox-SGD, achieving accuracy gains of up to 6 percent on CIFAR-100 and 3 percent on TinyImageNet while effectively mitigating gradient oscillations.
Abstract（参考訳）: ディープラーニング最適化は、ReLUアクティベーションや量子化演算子のような非滑らかなコンポーネントによって、現代的なアーキテクチャによって体系的に違反される、滑らかなロスランドスケープの仮定に大きく依存する。このような非滑らかな状況下では、アダムのような適応最適化器は勾配のチャタリングやクラーク部分微分の信号の衝突による激しい振動に悩まされ、収束性の低下と準最適一般化をもたらす。そこで我々はSingularity-aware Adam(S-Adam)という,局所的な幾何学的不安定性に基づいてステップサイズを動的に調整することでトレーニングを安定化する新しいオプティマイザを紹介した。我々の重要な貢献は局所幾何学的不安定度(LGI)計量であり、ランダム化方向微分の分散から導かれるクラーク偏差径の計算効率の良い推定器である。 S-アダムは適応減衰機構exp(-$λ$$ρ$)を組み込み、スムーズな盆地での高速収束を保ちながら、高不安定な地域で更新を減速させる。 S-アダムがほぼ確実に(δ$,$ε$)-クラーク定常点に最適なO(1/$\sqrt(T)$)レートで収束することを証明した微分包含を用いた厳密な収束解析を提供する。 QAT(Quantization-Aware Training)と高雑音小バッチ学習(High-noise small-batch learning)の実証評価では、S-AdamはAdamWとProx-SGDを一貫して上回り、CIFAR-100では最大6%、TinyImageNetでは最大3%の精度向上を実現し、傾き振動を効果的に軽減した。

関連論文リスト

Turning Stale Gradients into Stable Gradients: Coherent Coordinate Descent with Implicit Landscape Smoothing for Lightweight Zeroth-Order Optimization [11.723535704837266]
バックプロパゲーションが利用できないシナリオでは、ゼロオーダ(ZO)最適化が重要となる。既存の方法は、サンプル非効率(例:標準有限差分)であるか、ランダム化推定による高い分散に悩まされている、という大きなトレードオフに直面している。本研究では,CoCD(Coherent Coordinate Descent)を提案する。
論文参考訳（メタデータ） (2026-05-14T04:52:24Z)
Universally Empowering Zeroth-Order Optimization via Adaptive Layer-wise Sampling [43.822941944402544]
ゼロ階最適化は、微調整された大規模言語モデルのための有望なメモリ効率のパラダイムを提供する。しかし,壁面収差の緩やかな収束と高い推定分散により,その実用化は厳しく制約されている。本稿では,適応層型ZO最適化フレームワークであるAdaLeZOを提案する。
論文参考訳（メタデータ） (2026-04-20T13:37:31Z)
Causal Direction from Convergence Time: Faster Training in the True Causal Direction [0.0]
最適化力学に基づく因果方向同定の原理である因果計算非対称性(Causal Computational Asymmetric, CCA)を紹介する。 CCAは最適化時空間で動作し、RESIT、IGCI、SkewScoreなどの手法と区別する。さらに、グラフ構造学習、因果情報圧縮、ポリシー最適化を統合したCausal Compression Learning(CCL)というフレームワークにCCAを組み込む。
論文参考訳（メタデータ） (2026-02-24T21:34:57Z)
Revisiting the Initial Steps in Adaptive Gradient Descent Optimization [6.468625143772815]
Adamのような適応的な勾配最適化手法は、さまざまな機械学習タスクにわたるディープニューラルネットワークのトレーニングで広く使われている。これらの手法は、降下勾配 (SGD) と比較して最適下一般化に苦しむことが多く、不安定性を示す。非ゼロ値で2階モーメント推定を初期化する。
論文参考訳（メタデータ） (2024-12-03T04:28:14Z)
Gradient Normalization Provably Benefits Nonconvex SGD under Heavy-Tailed Noise [60.92029979853314]
重み付き雑音下でのグラディエントDescence(SGD)の収束を確実にする上での勾配正規化とクリッピングの役割について検討する。我々の研究は、重尾雑音下でのSGDの勾配正規化の利点を示す最初の理論的証拠を提供する。我々は、勾配正規化とクリッピングを取り入れた加速SGD変種を導入し、さらに重み付き雑音下での収束率を高めた。
論文参考訳（メタデータ） (2024-10-21T22:40:42Z)
A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文参考訳（メタデータ） (2024-10-14T12:10:06Z)
Adaptive SGD with Polyak stepsize and Line-search: Robust Convergence and Variance Reduction [26.9632099249085]
AdaSPSとAdaSLSと呼ばれる2種類の新しいSPSとSLSを提案し、非補間条件における収束を保証する。我々は, AdaSPS と AdaSLS に新しい分散低減技術を導入し, $smashwidetildemathcalO(n+1/epsilon)$グラデーション評価を必要とするアルゴリズムを得る。
論文参考訳（メタデータ） (2023-08-11T10:17:29Z)
Convergence of Adam Under Relaxed Assumptions [72.24779199744954]
我々は、アダムがより現実的な条件下で、$O(epsilon-4)$勾配複雑性で$epsilon$-定常点に収束することを示している。また、Adamの分散還元版を$O(epsilon-3)$の加速勾配複雑性で提案する。
論文参考訳（メタデータ） (2023-04-27T06:27:37Z)
Unified Convergence Analysis for Adaptive Optimization with Moving Average Estimator [75.05106948314956]
1次モーメントに対する大きな運動量パラメータの増大は適応的スケーリングに十分であることを示す。また,段階的に減少するステップサイズに応じて,段階的に運動量を増加させるための洞察を与える。
論文参考訳（メタデータ） (2021-04-30T08:50:24Z)
Balancing Rates and Variance via Adaptive Batch-Size for Stochastic Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文参考訳（メタデータ） (2020-07-02T16:02:02Z)
MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文参考訳（メタデータ） (2020-06-21T21:47:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。