Fugu-MT 論文翻訳(概要): SASSHA: Sharpness-aware Adaptive Second-order Optimization with Stable Hessian Approximation

論文の概要: SASSHA: Sharpness-aware Adaptive Second-order Optimization with Stable Hessian Approximation

arxiv url: http://arxiv.org/abs/2502.18153v1
Date: Tue, 25 Feb 2025 12:35:05 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-26 17:42:46.057545
Title: SASSHA: Sharpness-aware Adaptive Second-order Optimization with Stable Hessian Approximation
Title（参考訳）: SASSHA:安定なヘッセン近似を用いたシャープネス対応2次最適化
Authors: Dahun Shin, Dongyeop Lee, Jinseok Chung, Namhoon Lee,
Abstract要約: サシャ (Sassha) は、解の鋭さを明示的に減らし、一般化を強化するために設計された新しい二階法である。収束性、堅牢性、安定性、効率性、コストなど、包括的な分析セットを提供する。
参考スコア（独自算出の注目度）: 5.523554757946985
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Approximate second-order optimization methods often exhibit poorer generalization compared to first-order approaches. In this work, we look into this issue through the lens of the loss landscape and find that existing second-order methods tend to converge to sharper minima compared to SGD. In response, we propose Sassha, a novel second-order method designed to enhance generalization by explicitly reducing sharpness of the solution, while stabilizing the computation of approximate Hessians along the optimization trajectory. In fact, this sharpness minimization scheme is crafted also to accommodate lazy Hessian updates, so as to secure efficiency besides flatness. To validate its effectiveness, we conduct a wide range of standard deep learning experiments where Sassha demonstrates its outstanding generalization performance that is comparable to, and mostly better than, other methods. We provide a comprehensive set of analyses including convergence, robustness, stability, efficiency, and cost.
Abstract（参考訳）: 近似二階最適化法は、一階法に比べて一般化が貧弱であることが多い。本研究では、損失景観のレンズを通してこの問題を考察し、既存の2階法はSGDに比べてよりシャープなミニマに収束する傾向にあることを示す。そこで本研究では,解の鋭さを明示的に低減し,最適化軌道に沿って近似ヘッセンの計算を安定化し,一般化を向上する新しい二階法であるSasshaを提案する。実際、このシャープネスの最小化方式は、平らさ以外の効率性を確保するために、遅延ヘッセンアップデートに対応するためにも作られている。有効性を検証するため,Sasshaが他の手法に匹敵する優れた一般化性能を示すような,幅広い標準深層学習実験を実施している。収束性、堅牢性、安定性、効率性、コストなど、包括的な分析セットを提供する。

関連論文リスト

Refining Adaptive Zeroth-Order Optimization at Ease [24.327161891577727]
本稿では,Refined Adaptive Zeroth-Order Optimization (R-AdaZO)を紹介する。まず、ZO勾配推定における第1モーメント推定の未解決分散低減効果を示す。次に、これらの分散誘導勾配推定に基づいて第2モーメント推定を洗練し、最適化ランドスケープの幾何をより正確に把握する。
論文参考訳（メタデータ） (2025-02-03T03:10:44Z)
Bayesian Optimization for Non-Convex Two-Stage Stochastic Optimization Problems [2.9016548477524156]
知識段階に基づく獲得関数を定式化し、最初の変数を協調的に最適化し、一貫性の保証を確立し、近似を与える。 2つの変数型間で交互にフォーカスを減らして定式化する方法と同等な経験結果を示す。
論文参考訳（メタデータ） (2024-08-30T16:26:31Z)
Revisiting Scalable Hessian Diagonal Approximations for Applications in Reinforcement Learning [6.383513606898132]
二次情報は多くのアプリケーションにとって価値があるが、計算は困難である。 BL89よりも改善されたHesScaleを導入し、無視できる余分な計算を追加した。小さなネットワークでは、この改善は全ての代替品よりも高い品質であり、不偏性のような理論的保証のあるものでさえも計算がより安価である。
論文参考訳（メタデータ） (2024-06-05T13:53:20Z)
One-Shot Safety Alignment for Large Language Models via Optimal Dualization [64.52223677468861]
本稿では,制約付きアライメントを等価な非制約アライメント問題に還元する双対化の観点を提案する。我々は、閉形式を持つ滑らかで凸な双対函数を事前に最適化する。我々の戦略は、モデルベースと嗜好ベースの設定における2つの実用的なアルゴリズムに導かれる。
論文参考訳（メタデータ） (2024-05-29T22:12:52Z)
Optimal Guarantees for Algorithmic Reproducibility and Gradient Complexity in Convex Optimization [55.115992622028685]
以前の研究は、一階法はより良い収束率(漸進収束率)をトレードオフする必要があることを示唆している。最適複雑性と準最適収束保証の両方を、滑らかな凸最小化と滑らかな凸最小化問題に対して達成できることを実証する。
論文参考訳（メタデータ） (2023-10-26T19:56:52Z)
Gradient constrained sharpness-aware prompt learning for vision-language models [99.74832984957025]
本稿では,視覚言語モデル(VLM)の一般化可能な即時学習における新たなトレードオフ問題を提案する。最先端手法のロスランドスケープとSAMに基づくバニラシャープネス認識最小化法を解析することにより、トレードオフ性能は損失値と損失シャープネスの両方に相関していると結論付けた。本稿では,GCSCoOp (Gradient Constrained Sharpness-Aware Context Optimization) と表記される,素早い学習のためのSAMベースの新しい手法を提案する。
論文参考訳（メタデータ） (2023-09-14T17:13:54Z)
An Adaptive Incremental Gradient Method With Support for Non-Euclidean Norms [19.41328109094503]
そこで本研究では,SAGAアルゴリズムの適応型を新たにいくつか提案し,解析する。一般的な設定の下で収束保証を確立する。我々は、非ユークリッドノルムをサポートするためにSAGAの分析を改善した。
論文参考訳（メタデータ） (2022-04-28T09:43:07Z)
Outlier-Robust Sparse Estimation via Non-Convex Optimization [73.18654719887205]
空間的制約が存在する場合の高次元統計量と非破壊的最適化の関連について検討する。これらの問題に対する新規で簡単な最適化法を開発した。結論として、効率よくステーションに収束する一階法は、これらのタスクに対して効率的なアルゴリズムを導出する。
論文参考訳（メタデータ） (2021-09-23T17:38:24Z)
High Probability Complexity Bounds for Non-Smooth Stochastic Optimization with Heavy-Tailed Noise [51.31435087414348]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。非滑らか凸最適化の既存の方法は、信頼度に依存した複雑性境界を持つ。そこで我々は,勾配クリッピングを伴う2つの手法に対して,新たなステップサイズルールを提案する。
論文参考訳（メタデータ） (2021-06-10T17:54:21Z)
Variance Regularization for Accelerating Stochastic Optimization [14.545770519120898]
ミニバッチ勾配に隠れた統計情報を利用してランダムな誤りの蓄積を低減する普遍原理を提案する。これは、ミニバッチのばらつきに応じて学習率を正規化することで達成される。
論文参考訳（メタデータ） (2020-08-13T15:34:01Z)
Effective Dimension Adaptive Sketching Methods for Faster Regularized Least-Squares Optimization [56.05635751529922]
スケッチに基づくL2正規化最小二乗問題の解法を提案する。我々は、最も人気のあるランダム埋め込みの2つ、すなわちガウス埋め込みとサブサンプリングランダム化アダマール変換(SRHT)を考える。
論文参考訳（メタデータ） (2020-06-10T15:00:09Z)
The Strength of Nesterov's Extrapolation in the Individual Convergence of Nonsmooth Optimization [0.0]
ネステロフの外挿は、非滑らかな問題に対して勾配降下法の個人収束を最適にする強さを持つことを証明している。提案手法は,設定の非滑らかな損失を伴って正規化学習タスクを解くためのアルゴリズムの拡張である。本手法は,大規模な1-正規化ヒンジロス学習問題の解法として有効である。
論文参考訳（メタデータ） (2020-06-08T03:35:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。