論文の概要: SS-SAM : Stochastic Scheduled Sharpness-Aware Minimization for
Efficiently Training Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2203.09962v1
- Date: Fri, 18 Mar 2022 13:57:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-21 18:31:37.870926
- Title: SS-SAM : Stochastic Scheduled Sharpness-Aware Minimization for
Efficiently Training Deep Neural Networks
- Title(参考訳): SS-SAM : 深いニューラルネットワークを効果的に訓練するための確率的スケジューリング型シャープネス認識最小化
- Authors: Yang Zhao, Hao Zhang and Xiuyuan Hu
- Abstract要約: 適切なスケジューリング機能があれば、モデルが同等あるいはそれ以上のパフォーマンスを達成するように訓練できることが示されます。
適切なスケジューリング機能があれば、モデルがより少ない計算コストで同等あるいはさらに優れたパフォーマンスを達成するように訓練できることが示される。
- 参考スコア(独自算出の注目度): 13.937644559223548
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: By driving optimizers to converge to flat minima, sharpness-aware
minimization (SAM) has shown the power to improve the model generalization.
However, SAM requires to perform two forward-backward propagations for one
parameter update, which largely burdens the practical computation. In this
paper, we propose a novel and efficient training scheme, called Stochastic
Scheduled SAM (SS-SAM). Specifically, in SS-SAM, the optimizer is arranged by a
predefined scheduling function to perform a random trial at each update step,
which would randomly select to perform the SGD optimization or the SAM
optimization. In this way, the overall count of propagation pair could be
largely reduced. Then, we empirically investigate four typical types of
scheduling functions, and demonstrates the computational efficiency and their
impact on model performance respectively. We show that with proper scheduling
functions, models could be trained to achieve comparable or even better
performance with much lower computation cost compared to models trained with
only SAM training scheme.
- Abstract(参考訳): 最適化器をフラットミニマに収束させることで、シャープネス認識最小化(sam)はモデル一般化を改善する力を示した。
しかし、SAMは1つのパラメータの更新のために2つの前向きのプロパゲーションを実行する必要がある。
本稿では,Stochastic Scheduled SAM (SS-SAM) と呼ばれる新しい,効率的なトレーニング手法を提案する。
具体的には、SS-SAMでは、オプティマイザを事前定義されたスケジューリング関数で配置し、各更新ステップでランダムトライアルを行い、SGD最適化やSAM最適化をランダムに選択する。
このようにして、伝播対の総数を大幅に減らすことができる。
そこで本研究では,4種類のスケジューリング関数を実験的に検討し,それぞれがモデル性能に与える影響と計算効率を実証する。
適切なスケジューリング関数では、SAMトレーニングスキームのみを用いて訓練されたモデルと比較して、計算コストをはるかに低くして、同等またはさらに優れた性能を達成するよう訓練できることを示す。
関連論文リスト
- Scaling LLM Inference with Optimized Sample Compute Allocation [56.524278187351925]
我々は、異なる推論構成の最適な混合を見つけるアルゴリズムであるOSCAを提案する。
実験の結果,学習した混合アロケーションでは,最高の単一構成よりも精度がよいことがわかった。
OSCAはシングルターンタスク以外のエージェント処理にも有効であることが示されており、デフォルト設定よりも3倍少ない計算でSWE-Benchの精度が向上している。
論文 参考訳(メタデータ) (2024-10-29T19:17:55Z) - Fast Graph Sharpness-Aware Minimization for Enhancing and Accelerating Few-Shot Node Classification [53.727688136434345]
グラフニューラルネットワーク(GNN)はノード分類において優れた性能を示している。
高速グラフシャープネス認識最小化(FGSAM)を提案する。
提案アルゴリズムは,FSNCタスクにおいて,計算コストの低い標準SAMよりも優れる。
論文 参考訳(メタデータ) (2024-10-22T09:33:29Z) - Computationally Efficient RL under Linear Bellman Completeness for Deterministic Dynamics [39.07258580928359]
線形ベルマン完全設定に対する計算的および統計的に効率的な強化学習アルゴリズムについて検討する。
この設定では線形関数近似を用いて値関数をキャプチャし、線形マルコフ決定プロセス(MDP)や線形二次レギュレータ(LQR)のような既存のモデルを統一する。
我々の研究は、線形ベルマン完全設定のための計算効率の良いアルゴリズムを提供し、大きなアクション空間、ランダムな初期状態、ランダムな報酬を持つMDPに対して機能するが、決定論的となる基礎となる力学に依存している。
論文 参考訳(メタデータ) (2024-06-17T17:52:38Z) - Distributive Pre-Training of Generative Modeling Using Matrix-Product
States [0.0]
本稿では,基本的なテンソルネットワーク操作,例えば和と圧縮を利用した代替的なトレーニング手法を検討する。
トレーニングアルゴリズムは、製品状態表現におけるすべてのトレーニングデータから構築された重ね合わせ状態を圧縮する。
MNISTデータセット上でアルゴリズムをベンチマークし、新しい画像と分類タスクを生成するための妥当な結果を示す。
論文 参考訳(メタデータ) (2023-06-26T15:46:08Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - A Stable, Fast, and Fully Automatic Learning Algorithm for Predictive
Coding Networks [65.34977803841007]
予測符号化ネットワークは、ベイズ統計学と神経科学の両方にルーツを持つ神経科学にインスパイアされたモデルである。
シナプス重みに対する更新規則の時間的スケジュールを変更するだけで、元の規則よりもずっと効率的で安定したアルゴリズムが得られることを示す。
論文 参考訳(メタデータ) (2022-11-16T00:11:04Z) - Robust Learning of Parsimonious Deep Neural Networks [0.0]
本稿では,ニューラルネットワークにおける無関係構造を識別・排除できる同時学習および刈り取りアルゴリズムを提案する。
最適選択に欠かせないパラメータに対して,新しい超優先度分布を導出する。
我々は,提案アルゴリズムをMNISTデータセット上で評価し,完全連結型および畳み込み型LeNetアーキテクチャを用いた。
論文 参考訳(メタデータ) (2022-05-10T03:38:55Z) - Non-Clairvoyant Scheduling with Predictions Revisited [77.86290991564829]
非論理的スケジューリングでは、優先度不明な処理条件でジョブをスケジューリングするためのオンライン戦略を見つけることが課題である。
我々はこのよく研究された問題を、アルゴリズム設計に(信頼できない)予測を統合する、最近人気の高い学習強化された設定で再検討する。
これらの予測には所望の特性があり, 高い性能保証を有するアルゴリズムと同様に, 自然な誤差測定が可能であることを示す。
論文 参考訳(メタデータ) (2022-02-21T13:18:11Z) - Practical, Provably-Correct Interactive Learning in the Realizable
Setting: The Power of True Believers [12.09273192079783]
我々は、対話型学習を実現可能な設定で検討し、最適な腕の識別からアクティブな分類に至るまでの問題に対処する一般的な枠組みを開発する。
我々は,最小限の値と対数係数とを一致させる,計算効率のよい新しいアルゴリズムを設計する。
論文 参考訳(メタデータ) (2021-11-09T02:33:36Z) - Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth
Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。
本研究の結果は, 同時一次および二重側収束の形で表される。
論文 参考訳(メタデータ) (2020-08-23T20:36:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。