論文の概要: Kourkoutas-Beta: A Sunspike-Driven Adam Optimizer with Desert Flair
- arxiv url: http://arxiv.org/abs/2508.12996v1
- Date: Mon, 18 Aug 2025 15:16:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.440368
- Title: Kourkoutas-Beta: A Sunspike-Driven Adam Optimizer with Desert Flair
- Title(参考訳): Kourkoutas-Beta: 砂漠の炎を持つサンスパイク駆動のアダム最適化器
- Authors: Stavros C. Kassinos,
- Abstract要約: トランスフォーマーニューラルネットワークは、物理学に基づく問題にますます利用されている。
データ駆動型PDEサロゲートでは、異なる境界と初期条件からのトレーニングサンプルが不規則な損失とスパイク勾配を引き起こす可能性がある。
固定された第2モーメントベータ2がレイヤワイドな値に置き換えられるAdamスタイルの割引であるKourkoutas-Betaを紹介します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Transformer neural networks are increasingly used for physics-based problems. In data-driven PDE surrogates, training samples from varying boundary and initial conditions can cause erratic losses and spiky gradients; in physics-informed neural networks (PINNs), stiff composite losses amplify this effect. We introduce Kourkoutas-Beta, an Adam-style optimizer where the fixed second-moment discount beta2 is replaced by a layer-wise dynamic value driven by a bounded ``sunspike'' ratio: the current pooled gradient norm divided by an exponential moving average (EMA) of past norms, squashed to the interval [0,1). Spikes lower beta2 toward beta2_min; calm phases keep it near beta2_max. Options include leaky-AMSGrad (decay), trust-region clipping (max_ratio), adaptive tiny terms, and several bias-correction modes ``none'', ``beta2max'', ``exact'). With all features off and bias_correction=``none'', the method is exactly Adam. We test on four settings: (i) a Transformer PDE surrogate (Heat2D), (ii) a 3D PINN for heat conduction (Heat3D), (iii) a lightweight MLX synthetic task with jitter and rare-trigger bursts, and (iv) a character-level Transformer on 30 MB of enwik8 (small-enwik8). Kourkoutas-Beta improves stability and final loss versus fixed-beta2 Adam. On small-enwik8 it lowers bits-per-character by about 38% vs Adam-0.95 and about 58% vs Adam-0.999 over 10 seeds, with smaller variance. The method remains drop-in, with runtime overhead comparable to Adam in testbeds A-C and within single-digit percent in testbed D. It preserves Adam-style convergence guarantees while improving robustness under spiky gradients.
- Abstract(参考訳): トランスフォーマーニューラルネットワークは、物理学に基づく問題にますます利用されている。
データ駆動型PDEサロゲートでは、様々な境界と初期条件からのトレーニングサンプルが不規則な損失とスパイク勾配を引き起こし、物理学的インフォームドニューラルネットワーク(PINN)では、硬い複合的損失がこの効果を増幅する。
固定された第2モーメント割引ベータ2を、有界な 'sunspike'' 比で駆動される層回りの動的値に置き換えるアダム式最適化器であるKourkoutas-Betaを導入する: 現在のプール勾配ノルムは、過去のノルムの指数移動平均(EMA)で分割され、間隔 [0,1] にしゃがむ。
beta2_min は、ベータ2_max に近づき、穏やかなフェーズは、ベータ2_max に近づきます。
オプションとしては、リーク-AMSGrad (decay)、信頼領域クリッピング (max_ratio)、適応的最小項、バイアス補正モードの ``none''、 ``beta2max''、 ``exact'' などがある。
on all features off and bias_correction=``none'' メソッドはまさにAdamです。
4つの設定でテストします。
(i)トランスフォーマーPDEサロゲート(Heat2D)
(II)熱伝導用3DPINN(Heat3D)
三 ジッタ及びレアトリガーバーストを用いた軽量MLX合成作業、及び
(iv)Enwik8の30MB上の文字レベルのトランスフォーマー(小文字enwik8)。
Kourkoutas-Betaは、固定ベータ2Adamに対する安定性と最終的な損失を改善する。
小型のEnwik8では、Adam-0.95の約38%、Adam-0.999の約58%の約10の種子でビット・パー・キャラクタを38%低下させ、ばらつきは小さくなった。
テストベッドA-CではAdamに匹敵し、テストベッドDでは1桁の範囲内で実行時のオーバーヘッドはAdamに匹敵する。
関連論文リスト
- ADOPT: Modified Adam Can Converge with Any $β_2$ with the Optimal Rate [21.378608502899077]
本稿では,ADOPTという新しい適応勾配法を提案する。これは,有界雑音の仮定に依存することなく,$mathcalOの最適収束率を実現する。
ADOPTは、画像分類、生成モデル、自然言語処理、深層強化学習など、幅広いタスクにおいて、Adamとその変種と比較して優れた結果が得られる。
論文 参考訳(メタデータ) (2024-11-05T06:57:47Z) - Improved techniques for deterministic l2 robustness [63.34032156196848]
畳み込みニューラルネットワーク(CNN)を$l_2$ノルムの下で厳密な1-Lipschitz制約で訓練することは、対向的堅牢性、解釈可能な勾配、安定した訓練に有用である。
我々は,最後の線形層を1重層に置き換えることで,1-Lipschitz CNNのロバスト性を証明する手法を提案する。
我々は,CIFAR-10およびCIFAR-100における標準および証明可能な堅牢な精度の最先端化を図る。
論文 参考訳(メタデータ) (2022-11-15T19:10:12Z) - Gradient Estimation for Binary Latent Variables via Gradient Variance
Clipping [6.234350105794441]
勾配推定はしばしば、離散潜在変数を持つ生成モデルに適合するために必要である。
DisARMや他の推定器は、パラメータ空間の境界付近でばらつきを爆発させる可能性がある。
パラメータ空間の境界における分散を小さくする勾配推定器 textitbitflip-1 を提案する。
論文 参考訳(メタデータ) (2022-08-12T05:37:52Z) - Robust Implicit Networks via Non-Euclidean Contractions [63.91638306025768]
暗黙のニューラルネットワークは、精度の向上とメモリ消費の大幅な削減を示す。
彼らは不利な姿勢と収束の不安定さに悩まされる。
本論文は,ニューラルネットワークを高機能かつ頑健に設計するための新しい枠組みを提供する。
論文 参考訳(メタデータ) (2021-06-06T18:05:02Z) - Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。
我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。
画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-11-24T09:28:53Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z) - ADAHESSIAN: An Adaptive Second Order Optimizer for Machine Learning [91.13797346047984]
本稿では,2次最適化アルゴリズムであるADAHESSIANを紹介する。
ADAHESSIANは、他の適応最適化手法と比較して、新しい最先端の成果を大きなマージンで達成することを示す。
論文 参考訳(メタデータ) (2020-06-01T05:00:51Z) - A Simple Convergence Proof of Adam and Adagrad [74.24716715922759]
我々はAdam Adagradと$O(d(N)/st)$アルゴリズムの収束の証明を示す。
Adamはデフォルトパラメータで使用する場合と同じ収束$O(d(N)/st)$で収束する。
論文 参考訳(メタデータ) (2020-03-05T01:56:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。