論文の概要: Randomized Sharpness-Aware Training for Boosting Computational
Efficiency in Deep Learning
- arxiv url: http://arxiv.org/abs/2203.09962v2
- Date: Mon, 10 Apr 2023 06:43:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-12 00:14:05.330223
- Title: Randomized Sharpness-Aware Training for Boosting Computational
Efficiency in Deep Learning
- Title(参考訳): 深層学習における計算効率向上のためのランダム化シャープネスアウェアトレーニング
- Authors: Yang Zhao, Hao Zhang and Xiuyuan Hu
- Abstract要約: 我々はRandomized Sharpness-Aware Training (RST)と呼ばれるシンプルで効率的なトレーニング手法を提案する。RSTのRSTは、ベースアルゴリズム(SGD)とシャープネス・アウェアアルゴリズム(SAM)からランダムに選択するために、各イテレーションでベルヌーイ試行を行う。
その結果、G-RSTはSAMよりも50%のコストを節約できることがわかった。
- 参考スコア(独自算出の注目度): 13.937644559223548
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: By driving models to converge to flat minima, sharpness-aware learning
algorithms (such as SAM) have shown the power to achieve state-of-the-art
performances. However, these algorithms will generally incur one extra
forward-backward propagation at each training iteration, which largely burdens
the computation especially for scalable models. To this end, we propose a
simple yet efficient training scheme, called Randomized Sharpness-Aware
Training (RST). Optimizers in RST would perform a Bernoulli trial at each
iteration to choose randomly from base algorithms (SGD) and sharpness-aware
algorithms (SAM) with a probability arranged by a predefined scheduling
function. Due to the mixture of base algorithms, the overall count of
propagation pairs could be largely reduced. Also, we give theoretical analysis
on the convergence of RST. Then, we empirically study the computation cost and
effect of various types of scheduling functions, and give directions on setting
appropriate scheduling functions. Further, we extend the RST to a general
framework (G-RST), where we can adjust regularization degree on sharpness
freely for any scheduling function. We show that G-RST can outperform SAM in
most cases while saving 50\% extra computation cost.
- Abstract(参考訳): モデルをフラットな最小値に収束させることで、シャープネス認識学習アルゴリズム(samなど)は最先端のパフォーマンスを達成する力を示している。
しかしながら、これらのアルゴリズムは、通常、トレーニングイテレーション毎に1つの追加の前方伝播を発生させ、特にスケーラブルなモデルにおいて計算を負担する。
そこで本研究では,Randomized Sharpness-Aware Training (RST) と呼ばれる,シンプルながら効率的なトレーニング手法を提案する。
rstのオプティマイザは各イテレーションでベルヌーイ試行を行い、事前に定義されたスケジューリング関数によって配置された確率でベースアルゴリズム(sgd)とシャープネス認識アルゴリズム(sam)からランダムに選択する。
基本アルゴリズムが混在しているため、伝播対の総数は大幅に減少する可能性がある。
また、RSTの収束に関する理論的解析を行う。
次に,様々なスケジューリング関数の計算コストと効果を実証的に検討し,適切なスケジューリング関数の設定の方向性を示す。
さらに、RSTを一般的なフレームワーク(G-RST)に拡張し、任意のスケジューリング関数に対してシャープネスの正規化度を自由に調整できる。
G-RSTは,計算コストを50倍に抑えながらSAMよりも高い性能を示す。
関連論文リスト
- Scaling LLM Inference with Optimized Sample Compute Allocation [56.524278187351925]
我々は、異なる推論構成の最適な混合を見つけるアルゴリズムであるOSCAを提案する。
実験の結果,学習した混合アロケーションでは,最高の単一構成よりも精度がよいことがわかった。
OSCAはシングルターンタスク以外のエージェント処理にも有効であることが示されており、デフォルト設定よりも3倍少ない計算でSWE-Benchの精度が向上している。
論文 参考訳(メタデータ) (2024-10-29T19:17:55Z) - Fast Graph Sharpness-Aware Minimization for Enhancing and Accelerating Few-Shot Node Classification [53.727688136434345]
グラフニューラルネットワーク(GNN)はノード分類において優れた性能を示している。
高速グラフシャープネス認識最小化(FGSAM)を提案する。
提案アルゴリズムは,FSNCタスクにおいて,計算コストの低い標準SAMよりも優れる。
論文 参考訳(メタデータ) (2024-10-22T09:33:29Z) - Computationally Efficient RL under Linear Bellman Completeness for Deterministic Dynamics [39.07258580928359]
線形ベルマン完全設定に対する計算的および統計的に効率的な強化学習アルゴリズムについて検討する。
この設定では線形関数近似を用いて値関数をキャプチャし、線形マルコフ決定プロセス(MDP)や線形二次レギュレータ(LQR)のような既存のモデルを統一する。
我々の研究は、線形ベルマン完全設定のための計算効率の良いアルゴリズムを提供し、大きなアクション空間、ランダムな初期状態、ランダムな報酬を持つMDPに対して機能するが、決定論的となる基礎となる力学に依存している。
論文 参考訳(メタデータ) (2024-06-17T17:52:38Z) - Distributive Pre-Training of Generative Modeling Using Matrix-Product
States [0.0]
本稿では,基本的なテンソルネットワーク操作,例えば和と圧縮を利用した代替的なトレーニング手法を検討する。
トレーニングアルゴリズムは、製品状態表現におけるすべてのトレーニングデータから構築された重ね合わせ状態を圧縮する。
MNISTデータセット上でアルゴリズムをベンチマークし、新しい画像と分類タスクを生成するための妥当な結果を示す。
論文 参考訳(メタデータ) (2023-06-26T15:46:08Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - A Stable, Fast, and Fully Automatic Learning Algorithm for Predictive
Coding Networks [65.34977803841007]
予測符号化ネットワークは、ベイズ統計学と神経科学の両方にルーツを持つ神経科学にインスパイアされたモデルである。
シナプス重みに対する更新規則の時間的スケジュールを変更するだけで、元の規則よりもずっと効率的で安定したアルゴリズムが得られることを示す。
論文 参考訳(メタデータ) (2022-11-16T00:11:04Z) - Robust Learning of Parsimonious Deep Neural Networks [0.0]
本稿では,ニューラルネットワークにおける無関係構造を識別・排除できる同時学習および刈り取りアルゴリズムを提案する。
最適選択に欠かせないパラメータに対して,新しい超優先度分布を導出する。
我々は,提案アルゴリズムをMNISTデータセット上で評価し,完全連結型および畳み込み型LeNetアーキテクチャを用いた。
論文 参考訳(メタデータ) (2022-05-10T03:38:55Z) - Non-Clairvoyant Scheduling with Predictions Revisited [77.86290991564829]
非論理的スケジューリングでは、優先度不明な処理条件でジョブをスケジューリングするためのオンライン戦略を見つけることが課題である。
我々はこのよく研究された問題を、アルゴリズム設計に(信頼できない)予測を統合する、最近人気の高い学習強化された設定で再検討する。
これらの予測には所望の特性があり, 高い性能保証を有するアルゴリズムと同様に, 自然な誤差測定が可能であることを示す。
論文 参考訳(メタデータ) (2022-02-21T13:18:11Z) - Practical, Provably-Correct Interactive Learning in the Realizable
Setting: The Power of True Believers [12.09273192079783]
我々は、対話型学習を実現可能な設定で検討し、最適な腕の識別からアクティブな分類に至るまでの問題に対処する一般的な枠組みを開発する。
我々は,最小限の値と対数係数とを一致させる,計算効率のよい新しいアルゴリズムを設計する。
論文 参考訳(メタデータ) (2021-11-09T02:33:36Z) - Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth
Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。
本研究の結果は, 同時一次および二重側収束の形で表される。
論文 参考訳(メタデータ) (2020-08-23T20:36:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。