論文の概要: Temperature Balancing, Layer-wise Weight Analysis, and Neural Network
Training
- arxiv url: http://arxiv.org/abs/2312.00359v1
- Date: Fri, 1 Dec 2023 05:38:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 15:26:52.922390
- Title: Temperature Balancing, Layer-wise Weight Analysis, and Neural Network
Training
- Title(参考訳): 温度バランス、レイヤーワイドウェイト分析、ニューラルネットワークトレーニング
- Authors: Yefan Zhou, Tianyu Pang, Keqin Liu, Charles H. Martin, Michael W.
Mahoney, Yaoqing Yang
- Abstract要約: 本稿では,直感的で効果的な階層学習手法であるTempBalanceを提案する。
我々は、TempBalanceが通常のSGDと注意深く調整されたスペクトルノルム正規化より著しく優れていることを示す。
また、TempBalanceは最先端のメトリクスやスケジューラよりも優れています。
- 参考スコア(独自算出の注目度): 58.20089993899729
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Regularization in modern machine learning is crucial, and it can take various
forms in algorithmic design: training set, model family, error function,
regularization terms, and optimizations. In particular, the learning rate,
which can be interpreted as a temperature-like parameter within the statistical
mechanics of learning, plays a crucial role in neural network training. Indeed,
many widely adopted training strategies basically just define the decay of the
learning rate over time. This process can be interpreted as decreasing a
temperature, using either a global learning rate (for the entire model) or a
learning rate that varies for each parameter. This paper proposes TempBalance,
a straightforward yet effective layer-wise learning rate method. TempBalance is
based on Heavy-Tailed Self-Regularization (HT-SR) Theory, an approach which
characterizes the implicit self-regularization of different layers in trained
models. We demonstrate the efficacy of using HT-SR-motivated metrics to guide
the scheduling and balancing of temperature across all network layers during
model training, resulting in improved performance during testing. We implement
TempBalance on CIFAR10, CIFAR100, SVHN, and TinyImageNet datasets using
ResNets, VGGs, and WideResNets with various depths and widths. Our results show
that TempBalance significantly outperforms ordinary SGD and carefully-tuned
spectral norm regularization. We also show that TempBalance outperforms a
number of state-of-the-art optimizers and learning rate schedulers.
- Abstract(参考訳): 現代の機械学習における正規化は不可欠であり、トレーニングセット、モデルファミリー、エラー関数、正規化項、最適化といったアルゴリズム設計の様々な形態を取ることができる。
特に、学習の統計力学における温度のようなパラメータとして解釈できる学習率は、ニューラルネットワークトレーニングにおいて重要な役割を果たす。
実際、広く採用されている多くのトレーニング戦略は、基本的に時間の経過とともに学習率の低下を定義するだけである。
このプロセスは、(モデル全体の)グローバル学習率またはパラメータ毎に異なる学習率を使用して、温度を低下させると解釈できる。
本稿では,直感的で効果的な階層学習手法であるTempBalanceを提案する。
TempBalanceは、訓練されたモデルにおける異なるレイヤの暗黙的な自己規則化を特徴付けるアプローチであるHT-SR理論に基づいている。
実験では,ht-srモチベーション指標を用いて,モデルトレーニング中のネットワーク層全体の温度のスケジューリングとバランスを誘導し,テスト時のパフォーマンスを向上させる効果を実証する。
CIFAR10, CIFAR100, SVHN, TinyImageNetデータセット上で, 様々な深さと幅を持つResNet, VGG, WideResNetsを用いてTempBalanceを実装した。
以上の結果から,TempBalanceは通常のSGDと慎重に調整されたスペクトルノルム正規化よりも優れていた。
また、TempBalanceは最先端のオプティマイザや学習率スケジューラよりも優れています。
関連論文リスト
- To Cool or not to Cool? Temperature Network Meets Large Foundation Models via DRO [68.69840111477367]
LFMを改善するために,小型だが一般化可能な温度予測ネットワーク(TempNet)を学習するための基本的枠組みを提案する。
LLMとCLIPモデルに関する我々の実験は、TempNetが既存のソリューションやモデルの性能を大幅に改善することを示した。
論文 参考訳(メタデータ) (2024-04-06T09:55:03Z) - Always-Sparse Training by Growing Connections with Guided Stochastic
Exploration [46.4179239171213]
本研究では,より大規模かつスペーサーなモデルへのスケーリングに優れる,効率的な常時スパーストレーニングアルゴリズムを提案する。
我々は,VGGモデルとVTモデルを用いて,CIFAR-10/100 と ImageNet の手法を評価し,様々なスペーサー化手法と比較した。
論文 参考訳(メタデータ) (2024-01-12T21:32:04Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - The Underlying Correlated Dynamics in Neural Training [6.385006149689549]
ニューラルネットワークのトレーニングは、計算集約的なタスクである。
本稿では,パラメータのダイナミクスの相関に基づくモデルを提案する。
この表現は、基礎となるトレーニングダイナミクスの理解を深め、より良い加速技術を設計するための道を開くことができる。
論文 参考訳(メタデータ) (2022-12-18T08:34:11Z) - A Fast and Efficient Conditional Learning for Tunable Trade-Off between
Accuracy and Robustness [11.35810118757863]
クリーンかつ逆摂動画像上でのSOTA(State-of-the-art)性能を実現する既存のモデルは、FiLM(Feature-wise linear modulation)層を条件とした畳み込み操作に依存している。
既存のFiLMベースの条件付けの代わりに、付加層を必要としない独特な重み付き学習を行うFLOATアルゴリズムを提案する。
特に、重みテンソルにスケールドノイズを加え、クリーンな性能と対向的な性能のトレードオフを可能にする。
論文 参考訳(メタデータ) (2022-03-28T19:25:36Z) - Functional Regularization for Reinforcement Learning via Learned Fourier
Features [98.90474131452588]
本稿では、入力を学習されたフーリエベースに埋め込むことにより、深層強化学習のための簡単なアーキテクチャを提案する。
その結果、状態ベースと画像ベースの両方のRLのサンプル効率が向上することがわかった。
論文 参考訳(メタデータ) (2021-12-06T18:59:52Z) - LRTuner: A Learning Rate Tuner for Deep Neural Networks [10.913790890826785]
学習率のスケジュールの選択は、計算コストがミニマに近づくこと、実際にミニマにどれだけ近づいたか、そして最も重要なのは、ローカルなミニマ(ワイド/ナロー)が到達したかを決定する。
現在のシステムは、手動チューニングされた学習率スケジュールを採用しており、各ネットワークとデータセットに対して面倒な調整がなされている。
LRTunerは,学習が進むにつれて学習率のスケジュールを調整できる手法である。
論文 参考訳(メタデータ) (2021-05-30T13:06:26Z) - GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。
各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-02-16T11:45:35Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。