論文の概要: Comment on Stochastic Polyak Step-Size: Performance of ALI-G
- arxiv url: http://arxiv.org/abs/2105.10011v1
- Date: Thu, 20 May 2021 19:57:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 03:20:14.171972
- Title: Comment on Stochastic Polyak Step-Size: Performance of ALI-G
- Title(参考訳): 確率的polyakステップサイズに関するコメント:ali-gの性能
- Authors: Leonard Berrada, Andrew Zisserman, M. Pawan Kumar
- Abstract要約: ALI-GとSPSはどちらも、機械学習モデルを最適化するためにPolyakのステップサイズを適応したものである。
CIFAR-10 と CIFAR-100 で ResNet-34 のトレーニングを行う場合,ALI-G は 93.5% (+6%) と 76% (+8%) と非常に少ないチューニングでそれぞれ到達可能であることを示す。
- 参考スコア(独自算出の注目度): 104.83776736573009
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This is a short note on the performance of the ALI-G algorithm (Berrada et
al., 2020) as reported in (Loizou et al., 2021). ALI-G (Berrada et al., 2020)
and SPS (Loizou et al., 2021) are both adaptations of the Polyak step-size to
optimize machine learning models that can interpolate the training data. The
main algorithmic differences are that (1) SPS employs a multiplicative constant
in the denominator of the learning-rate while ALI-G uses an additive constant,
and (2) SPS uses an iteration-dependent maximal learning-rate while ALI-G uses
a constant one. There are also differences in the analysis provided by the two
works, with less restrictive assumptions proposed in (Loizou et al., 2021). In
their experiments, (Loizou et al., 2021) did not use momentum for ALI-G (which
is a standard part of the algorithm) or standard hyper-parameter tuning (for
e.g. learning-rate and regularization). Hence this note as a reference for the
improved performance that ALI-G can obtain with well-chosen hyper-parameters.
In particular, we show that when training a ResNet-34 on CIFAR-10 and
CIFAR-100, the performance of ALI-G can reach respectively 93.5% (+6%) and 76%
(+8%) with a very small amount of tuning. Thus ALI-G remains a very competitive
method for training interpolating neural networks.
- Abstract(参考訳): これは (Loizou et al., 2021) で報告されている ALI-G アルゴリズム (Berrada et al., 2020) の性能に関する短いメモである。
ALI-G (Berrada et al., 2020) と SPS (Loizou et al., 2021) はどちらも、トレーニングデータを補間可能な機械学習モデルを最適化するためのPolyakのステップサイズ適応である。
アルゴリズムの主な違いは、(1)SPSは学習率の分母に乗算定数、(2)ALI-Gは加法定数、(2)SPSは反復依存の最大学習率、(2)ALI-Gは定数である。
2つの研究から得られた分析にも違いがあり、(Loizou et al., 2021)ではより制約的な仮定が提案されている。
彼らの実験では (Loizou et al., 2021) は ALI-G (アルゴリズムの標準部分) や標準のハイパーパラメータチューニング (例) には運動量を使用しなかった。
学習率と正規化)。
したがって、ALI-Gが高調波ハイパーパラメータで得られる性能改善の基準となる。
特に,CIFAR-10 と CIFAR-100 で ResNet-34 のトレーニングを行う場合,ALI-G は 93.5% (+6%) と 76% (+8%) に非常に少ないチューニングで到達可能であることを示す。
このように、ALI-Gはニューラルネットワークを補間する非常に競争力のある方法である。
関連論文リスト
- AdaGC: Improving Training Stability for Large Language Model Pretraining [18.163318397205533]
大きなLanguageText Models(LLM)は、スケーリング中に損失の急増に直面します。
グローバルなクリッピングがこれを緩和する一方で、従来のアプローチは特定のバリエーションを緩和する。
我々は,AdaGCがグローバルクリッピングよりも25%早く収束していることを示す。
論文 参考訳(メタデータ) (2025-02-16T08:13:23Z) - HALO: Hadamard-Assisted Lower-Precision Optimization for LLMs [45.37278584462772]
本稿では,トランスフォーマーのための新しい量子化学習手法HALOを提案する。
提案手法により, 前方・後方パスにおける行列乗算の精度が低くなることが保証される。
LLAMAファミリーモデルに適用すると、HALOは様々なタスクの微調整中にほぼ完全精度に等しい結果が得られる。
論文 参考訳(メタデータ) (2025-01-05T18:41:54Z) - SWAN: SGD with Normalization and Whitening Enables Stateless LLM Training [16.037614012166063]
Gradient Descent(SGD)は、トレーニング中に状態変数をトラッキングしないため、ステートレスで拡張性がある。
本研究では,SGDを非定常的に前処理することで,LLMのトレーニングを行うAdamと同じ性能が得られることを示す。
正規化は勾配を安定化させ,損失景観の局所的な曲率に反することを示す。これによってSWAN (SGD with Whitening and Normalization) が成立し,任意の状態を保存する必要がなくなる。
論文 参考訳(メタデータ) (2024-12-17T18:13:18Z) - Iterative Reasoning Preference Optimization [84.15992372132507]
生成したChain-of-Thought(CoT)候補間の嗜好を最適化するための反復的アプローチを開発する。
このスキームの繰り返し繰り返しにおける推論の改善を示す。
例えば、GSM8Kは55.6%から81.6%に大きく改善され、精度は88.7%となり、32のサンプルのうち多数が投票した。
論文 参考訳(メタデータ) (2024-04-30T17:28:05Z) - Exploring the impact of low-rank adaptation on the performance,
efficiency, and regularization of RLHF [47.960563851948514]
低ランク適応(LoRA)を用いたRLHFの効率的な実装について検討する。
本実装は,フルモデル微調整によるAlpacaFarmチェックポイントよりも優れた性能を実現する。
我々は、より効率的なRLHFの研究を促進するために、コードと事前訓練されたチェックポイントをリリースする。
論文 参考訳(メタデータ) (2023-09-16T17:31:36Z) - An efficient hybrid classification approach for COVID-19 based on Harris
Hawks Optimization and Salp Swarm Optimization [0.0]
本研究では、Covid-19分類のためのHarris Hawks Optimization Algorithm(HHO)とSalp Swarm Optimization(SSA)のハイブリッドバイナリバージョンを提案する。
提案アルゴリズム(HHOSSA)は,SVMで96%の精度,2つの分類器で98%,98%の精度を達成した。
論文 参考訳(メタデータ) (2022-12-25T19:52:18Z) - Scaling & Shifting Your Features: A New Baseline for Efficient Model
Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。
そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T08:14:49Z) - Improving Calibration for Long-Tailed Recognition [68.32848696795519]
このようなシナリオにおけるキャリブレーションとパフォーマンスを改善する2つの方法を提案します。
異なるサンプルによるデータセットバイアスに対して,シフトバッチ正規化を提案する。
提案手法は,複数の長尾認識ベンチマークデータセットに新しいレコードをセットする。
論文 参考訳(メタデータ) (2021-04-01T13:55:21Z) - A Self-Tuning Actor-Critic Algorithm [57.46821456365635]
Self-Tuning Actor-Critic (STAC) は強化学習のためのアルゴリズムである。
STACは使いやすく、サンプリング効率が良く、計算量を大幅に増やす必要がない。
研究によると、STACは2億ステップのヒト正当化スコアを243%から364%に改善した。
論文 参考訳(メタデータ) (2020-02-28T18:55:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。