論文の概要: CAO: Curvature-Adaptive Optimization via Periodic Low-Rank Hessian Sketching
- arxiv url: http://arxiv.org/abs/2511.12548v1
- Date: Sun, 16 Nov 2025 10:57:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.311243
- Title: CAO: Curvature-Adaptive Optimization via Periodic Low-Rank Hessian Sketching
- Title(参考訳): CAO: 周期的低ランクヘッセンスケッチによる曲率適応最適化
- Authors: Wenzhang Du,
- Abstract要約: 一階の曲率は信頼性が高いが、鋭く異方性のある領域では遅い。
我々は、ヘッセン積を介してヘッセン部分空間をスケッチする曲率宣言法を用いる。
ResNet-18/34 の CIFAR/100 では、この手法は低損失閾値 (0.75x) をかなり早く入力する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: First-order optimizers are reliable but slow in sharp, anisotropic regions. We study a curvature-adaptive method that periodically sketches a low-rank Hessian subspace via Hessian--vector products and preconditions gradients only in that subspace, leaving the orthogonal complement first-order. For L-smooth non-convex objectives, we recover the standard O(1/T) stationarity guarantee with a widened stable stepsize range; under a Polyak--Lojasiewicz (PL) condition with bounded residual curvature outside the sketch, the loss contracts at refresh steps. On CIFAR-10/100 with ResNet-18/34, the method enters the low-loss region substantially earlier: measured by epochs to a pre-declared train-loss threshold (0.75), it reaches the threshold 2.95x faster than Adam on CIFAR-100/ResNet-18, while matching final test accuracy. The approach is one-knob: performance is insensitive to the sketch rank k across {1,3,5}, and k=0 yields a principled curvature-free ablation. We release anonymized logs and scripts that regenerate all figures and tables.
- Abstract(参考訳): 一階最適化器は信頼性が高いが、鋭く異方性のある領域では遅い。
我々は、ヘッセンベクトル積とその部分空間のみの条件勾配を経た低ランクヘッセン部分空間を周期的にスケッチする曲率適応法について研究し、直交補空間を一階に残す。
L-smooth の非凸目的に対して,L-smooth の定常安定度保証を広範に安定なステップサイズ範囲で再現する。
ResNet-18/34 を用いた CIFAR-10/100 では、この手法は低損失領域にかなり早く進入する: 事前に宣言された列車損失閾値 (0.75) までエポックで測定すると、最終試験精度を満足しながら、CIFAR-100/ResNet-18 でアダムよりも2.95倍速い閾値に達する。
性能は {1,3,5} にまたがるスケッチランク k に不感であり、k=0 は原則化された曲率のないアブレーションをもたらす。
すべてのフィギュアとテーブルを再生する匿名ログとスクリプトをリリースします。
関連論文リスト
- Closed-Form Last Layer Optimization [72.49151473937319]
正方形損失の下では、線形最終層重みに対する最適解は閉形式で知られている。
これは、バックボーン上の勾配降下ステップと最終層上のクローズドフォーム更新の交互に行われることを示す。
論文 参考訳(メタデータ) (2025-10-06T09:14:39Z) - Stochastic Zeroth-Order Optimization under Strongly Convexity and Lipschitz Hessian: Minimax Sample Complexity [59.75300530380427]
本稿では,アルゴリズムが検索対象関数の雑音評価にのみアクセス可能な2次スムーズかつ強い凸関数を最適化する問題を考察する。
本研究は, ミニマックス単純後悔率について, 一致した上界と下界を発達させることにより, 初めて厳密な評価を行ったものである。
論文 参考訳(メタデータ) (2024-06-28T02:56:22Z) - Directional Smoothness and Gradient Methods: Convergence and Adaptivity [16.779513676120096]
我々は、最適化の経路に沿った目的の条件付けに依存する勾配降下に対する新しい準最適境界を開発する。
我々の証明の鍵となるのは方向の滑らかさであり、これは、目的の上のバウンドを開発するために使用する勾配変動の尺度である。
我々は,方向の滑らかさの知識を使わずとも,ポリアクのステップサイズと正規化GDが高速で経路依存の速度を得ることを示した。
論文 参考訳(メタデータ) (2024-03-06T22:24:05Z) - Efficiency of First-Order Methods for Low-Rank Tensor Recovery with the
Tensor Nuclear Norm Under Strict Complementarity [19.930021245647705]
テンソル核ノルムによって誘導される球上での制約反復に基づく低ランクテンソルの回収のための凸緩和について考察する。
厳密な相補性条件の下では、標準勾配法の収束率と点当たりのランタイムの両方が劇的に改善される。
論文 参考訳(メタデータ) (2023-08-03T10:31:22Z) - Improved techniques for deterministic l2 robustness [63.34032156196848]
畳み込みニューラルネットワーク(CNN)を$l_2$ノルムの下で厳密な1-Lipschitz制約で訓練することは、対向的堅牢性、解釈可能な勾配、安定した訓練に有用である。
我々は,最後の線形層を1重層に置き換えることで,1-Lipschitz CNNのロバスト性を証明する手法を提案する。
我々は,CIFAR-10およびCIFAR-100における標準および証明可能な堅牢な精度の最先端化を図る。
論文 参考訳(メタデータ) (2022-11-15T19:10:12Z) - Exponential Concentration in Stochastic Approximation [0.8192907805418583]
我々は,各ステップで目標に向かって反復的に進行する近似アルゴリズムの挙動を解析する。
我々はマルコフ近似アルゴリズム、具体的には射影勾配 Descent, Kiefer-Wolfowitz および Frank-Wolfe アルゴリズムに適用する。
論文 参考訳(メタデータ) (2022-08-15T14:57:26Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z) - High-probability Bounds for Non-Convex Stochastic Optimization with
Heavy Tails [55.561406656549686]
我々は、勾配推定が末尾を持つ可能性のある一階アルゴリズムを用いたヒルベルト非最適化を考える。
本研究では, 勾配, 運動量, 正規化勾配勾配の収束を高確率臨界点に収束させることと, 円滑な損失に対する最もよく知られた繰り返しを示す。
論文 参考訳(メタデータ) (2021-06-28T00:17:01Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。