論文の概要: A Stable Whitening Optimizer for Efficient Neural Network Training
- arxiv url: http://arxiv.org/abs/2506.07254v2
- Date: Tue, 10 Jun 2025 22:01:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-12 16:13:48.016668
- Title: A Stable Whitening Optimizer for Efficient Neural Network Training
- Title(参考訳): ニューラルネットワーク学習のための安定なホワイトニング最適化
- Authors: Kevin Frans, Sergey Levine, Pieter Abbeel,
- Abstract要約: アルゴリズムのシャンプー系をベースとして,3つの重要な問題を同定・緩和し,SPlus法を提案する。
まず,行列逆が長期にわたってキャッシュされる場合,素早いシャンプーは分岐しがちであることがわかった。
第二に、ネットワーク幅をまたいで学習率の伝達を可能にするために、形状認識スケーリングを適用する。
第3に,高い学習率によってパラメータノイズが大きくなり,より高速な学習をブロックする簡単な反復学習方式を提案する。
- 参考スコア(独自算出の注目度): 101.89246340672246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we take an experimentally grounded look at neural network optimization. Building on the Shampoo family of algorithms, we identify and alleviate three key issues, resulting in the proposed SPlus method. First, we find that naive Shampoo is prone to divergence when matrix-inverses are cached for long periods. We introduce an alternate bounded update combining a historical eigenbasis with instantaneous normalization, resulting in across-the-board stability and significantly lower computational requirements. Second, we adapt a shape-aware scaling to enable learning rate transfer across network width. Third, we find that high learning rates result in large parameter noise, and propose a simple iterate-averaging scheme which unblocks faster learning. To properly confirm these findings, we introduce a pointed Transformer training benchmark, considering three objectives (language modelling, image classification, and diffusion modelling) across different stages of training. On average, SPlus is able to reach the validation performance of Adam within 44% of the gradient steps and 62% of the wallclock time.
- Abstract(参考訳): 本研究では,ニューラルネットワークの最適化について実験的に検討する。
アルゴリズムのシャンプー系をベースとして,3つの重要な問題を同定・緩和し,SPlus法を提案する。
まず,行列逆が長期にわたってキャッシュされる場合,素早いシャンプーは分岐しがちであることがわかった。
我々は,過去の固有値と瞬時正規化を組み合わせた有界更新を導入し,その結果,ボード間の安定性と計算要求の大幅な低減を実現した。
第二に、ネットワーク幅をまたいで学習率の伝達を可能にするために、形状認識スケーリングを適用する。
第3に,高い学習率によってパラメータノイズが大きくなり,より高速な学習をブロックする簡単な反復学習方式を提案する。
これらの知見を適切に検証するために,言語モデリング,画像分類,拡散モデリングの3つの目的を考慮したポイントトランスフォーマートレーニングベンチマークを導入する。
SPlusは平均して,勾配ステップの44%,ウォールクロック時間の62%以内に,Adamのバリデーションパフォーマンスに到達することができる。
関連論文リスト
- Learning Hyperparameters via a Data-Emphasized Variational Objective [4.453137996095194]
ベイズ変分法から得られたエビデンスローバウンド(ELBo)目標を通した全トレーニングセット上での正規化ハイパーパラメータの勾配に基づく直接学習を検討する。
このようなシナリオでは、ELBoは事前のばらつきにマッチする後方を優先順位付けし、データの過小評価につながる。
提案手法は,過去の作業の88時間以上のグリッド検索を3時間以内の精度で行う。
論文 参考訳(メタデータ) (2025-02-03T22:19:35Z) - Time Elastic Neural Networks [2.1756081703276]
時間弾性ニューラルネットワーク(teNN)という,非定型ニューラルネットワークアーキテクチャの導入と詳細化について述べる。
古典的ニューラルネットワークアーキテクチャと比較して新しいのは、時間ゆがみ能力を明確に組み込んでいることだ。
トレーニング過程において,TENNは各細胞に必要となるニューロン数を減少させることに成功した。
論文 参考訳(メタデータ) (2024-05-27T09:01:30Z) - Class-Imbalanced Semi-Supervised Learning for Large-Scale Point Cloud
Semantic Segmentation via Decoupling Optimization [64.36097398869774]
半教師付き学習(SSL)は大規模3Dシーン理解のための活発な研究課題である。
既存のSSLベースのメソッドは、クラス不均衡とポイントクラウドデータのロングテール分布による厳しいトレーニングバイアスに悩まされている。
本稿では,特徴表現学習と分類器を別の最適化方法で切り離してバイアス決定境界を効果的にシフトする,新しいデカップリング最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-13T04:16:40Z) - Adaptive Multi-step Refinement Network for Robust Point Cloud Registration [82.64560249066734]
ポイントクラウド登録は、同じシーンの2つのポイントクラウド間の相対的な厳密な変換を推定する。
本稿では,前ステップからの情報を活用することで,各ステップの登録品質を向上する適応型多段階改良ネットワークを提案する。
本手法は3DMatch/3DLoMatchベンチマークとKITTIベンチマークの両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-05T18:59:41Z) - Three Guidelines You Should Know for Universally Slimmable
Self-Supervised Learning [4.631627683014556]
我々は,複数のデバイスにまたがって自己教師付きモデルを展開するための精度・効率のトレードオフを実現するために,普遍的にスリム化可能な自己教師付き学習(US3L)を提案する。
我々は,学習過程が頻繁に崩壊するにつれて,自己指導型学習のネットワークへの直接的な適応が誤っていることを観察する。
我々は、この時間的一貫性を統一的な視点から確保するために、損失設計のための3つのガイドラインを提案する。
論文 参考訳(メタデータ) (2023-03-13T05:37:46Z) - AdaSAM: Boosting Sharpness-Aware Minimization with Adaptive Learning
Rate and Momentum for Training Deep Neural Networks [76.90477930208982]
シャープネス認識(SAM)は、ディープニューラルネットワークのトレーニングにおいて、より一般的なものにするため、広範囲に研究されている。
AdaSAMと呼ばれる適応的な学習摂動と運動量加速度をSAMに統合することはすでに検討されている。
いくつかのNLPタスクにおいて,SGD,AMS,SAMsGradと比較して,AdaSAMが優れた性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2023-03-01T15:12:42Z) - Weight Update Skipping: Reducing Training Time for Artificial Neural
Networks [0.30458514384586394]
本稿では,時間的変動を示す精度向上の観察を生かしたANNのための新しいトレーニング手法を提案する。
このような時間窓の間、ネットワークがまだトレーニングされていることを保証し、過度な適合を避けるバイアスを更新し続けます。
このようなトレーニングアプローチは、計算コストを大幅に削減して、ほぼ同じ精度を達成し、トレーニング時間を短縮する。
論文 参考訳(メタデータ) (2020-12-05T15:12:10Z) - Human Body Model Fitting by Learned Gradient Descent [48.79414884222403]
画像に3次元の人体形状を適合させる新しいアルゴリズムを提案する。
このアルゴリズムは高速(約120ms収束)で、データセットに頑健であり、公開評価データセットの最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2020-08-19T14:26:47Z) - Lipreading using Temporal Convolutional Networks [57.41253104365274]
現在の単語認識モデルは,残差ネットワークと双方向Gated Recurrent Unit層で構成されている。
このモデルの限界に対処し、その性能をさらに向上させる変更を提案する。
提案モデルでは,これらのデータセットにおいてそれぞれ1.2%と3.2%の絶対的な改善が得られた。
論文 参考訳(メタデータ) (2020-01-23T17:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。