論文の概要: How do SGD hyperparameters in natural training affect adversarial
robustness?
- arxiv url: http://arxiv.org/abs/2006.11604v1
- Date: Sat, 20 Jun 2020 16:04:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 21:52:39.599999
- Title: How do SGD hyperparameters in natural training affect adversarial
robustness?
- Title(参考訳): 自然訓練におけるSGDハイパーパラメータは対向性にどのように影響するか?
- Authors: Sandesh Kamath, Amit Deshpande, K V Subrahmanyam
- Abstract要約: 学習速度、バッチサイズ、運動量は、SGDアルゴリズムにおいて3つの重要なハイパーパラメータである。
本稿では,SGDハイパーパラメータが未飽和試料を用いてトレーニングしたネットワークの精度と対角的ロバスト性に及ぼす影響を実証的に観察する。
- 参考スコア(独自算出の注目度): 5.406299794900294
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Learning rate, batch size and momentum are three important hyperparameters in
the SGD algorithm. It is known from the work of Jastrzebski et al.
arXiv:1711.04623 that large batch size training of neural networks yields
models which do not generalize well. Yao et al. arXiv:1802.08241 observe that
large batch training yields models that have poor adversarial robustness. In
the same paper, the authors train models with different batch sizes and compute
the eigenvalues of the Hessian of loss function. They observe that as the batch
size increases, the dominant eigenvalues of the Hessian become larger. They
also show that both adversarial training and small-batch training leads to a
drop in the dominant eigenvalues of the Hessian or lowering its spectrum. They
combine adversarial training and second order information to come up with a new
large-batch training algorithm and obtain robust models with good
generalization. In this paper, we empirically observe the effect of the SGD
hyperparameters on the accuracy and adversarial robustness of networks trained
with unperturbed samples. Jastrzebski et al. considered training models with a
fixed learning rate to batch size ratio. They observed that higher the ratio,
better is the generalization. We observe that networks trained with constant
learning rate to batch size ratio, as proposed in Jastrzebski et al., yield
models which generalize well and also have almost constant adversarial
robustness, independent of the batch size. We observe that momentum is more
effective with varying batch sizes and a fixed learning rate than with constant
learning rate to batch size ratio based SGD training.
- Abstract(参考訳): 学習速度、バッチサイズ、運動量はSGDアルゴリズムにおいて3つの重要なハイパーパラメータである。
Jastrzebski et al. arXiv:1711.04623の業績から、ニューラルネットワークの大規模なバッチサイズトレーニングは、よく一般化されていないモデルを生成することが知られている。
Yao et al. arXiv:1802.08241 は、大規模なバッチトレーニングが敵の堅牢性に乏しいモデルを生み出すことを観察する。
同じ論文で、著者らは異なるバッチサイズでモデルを訓練し、損失関数のヘシアンの固有値を計算する。
彼らはバッチサイズが大きくなるにつれて、ヘッセン族の支配的な固有値が大きくなることを観察する。
彼らはまた、逆行訓練と小バッチトレーニングの両方がヘッセンの優越的な固有値の低下またはスペクトルの低下につながることを示した。
敵対的トレーニングと2次情報を組み合わせて、新しい大規模バッチトレーニングアルゴリズムを考案し、優れた一般化を伴う堅牢なモデルを得る。
本稿では,SGDハイパーパラメータが未飽和試料を用いてトレーニングしたネットワークの精度と対角性に及ぼす影響を実証的に観察する。
Jastrzebskiらは、一定の学習率からバッチサイズ比率のトレーニングモデルを検討した。
彼らはより高い比が一般化であることを示した。
我々は,Jastrzebskiらによって提案されているように,一定の学習速度からバッチサイズ比まで訓練されたネットワークが,バッチサイズによらず,ほぼ一定の逆の堅牢性を持つ収率モデルであることを示す。
sgdトレーニングでは,一定の学習率とバッチサイズ比よりも,バッチサイズや固定学習率の異なる場合の方が運動量の方が効果的である。
関連論文リスト
- Reusing Pretrained Models by Multi-linear Operators for Efficient
Training [65.64075958382034]
大規模なモデルをスクラッチからトレーニングすることは、通常、かなりの量のリソースを必要とする。
bert2BERT や LiGO といった最近の研究は、大規模なモデルを初期化するために、小さな事前訓練されたモデルを再利用している。
本稿では,対象モデルの各重みを事前学習モデルの全重みに線形に相関させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-16T06:16:47Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - PLATON: Pruning Large Transformer Models with Upper Confidence Bound of
Weight Importance [114.1541203743303]
本稿では,重要度推定の上位信頼度境界(UCB)による重要度スコアの不確かさを捉えるPLATONを提案する。
我々は、自然言語理解、質問応答、画像分類に関するトランスフォーマーモデルを用いて、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2022-06-25T05:38:39Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - The curse of overparametrization in adversarial training: Precise
analysis of robust generalization for random features regression [34.35440701530876]
逆向きに訓練されたランダムな特徴モデルでは、高い過度なパラメータ化が堅牢な一般化を損なう可能性があることを示す。
提案理論は, 強靭性に対する過度パラメータ化の非自明な効果を明らかにし, 高過度パラメータ化が強靭性一般化を損なうことを示唆している。
論文 参考訳(メタデータ) (2022-01-13T18:57:30Z) - Understanding the Logit Distributions of Adversarially-Trained Deep
Neural Networks [6.439477789066243]
敵の防御は、敵の攻撃による入力摂動に不変であるように、ディープニューラルネットワークを訓練する。
敵の攻撃を緩和するためには敵の訓練が成功しているが、敵の訓練を受けた(AT)モデルと標準モデルとの行動的差異はいまだに理解されていない。
対向性学習に不可欠な3つのロジット特性を同定する。
論文 参考訳(メタデータ) (2021-08-26T19:09:15Z) - Stochastic Normalized Gradient Descent with Momentum for Large-Batch Training [9.964630991617764]
勾配降下(SGD)とその変種は機械学習における支配的最適化手法である。
本稿では,大規模バッチ学習のための運動量付き正規化勾配降下法(SNGM)を提案する。
論文 参考訳(メタデータ) (2020-07-28T04:34:43Z) - On the Generalization Benefit of Noise in Stochastic Gradient Descent [34.127525925676416]
ディープニューラルネットワークにおけるバッチ勾配勾配よりも、ミニバッチ勾配勾配がより一般化できるという主張は、長年にわたって議論されてきた。
小さいバッチサイズや中程度のバッチサイズは、テストセットにおいて非常に大きなバッチよりも大幅に優れています。
論文 参考訳(メタデータ) (2020-06-26T16:18:54Z) - Train Large, Then Compress: Rethinking Model Size for Efficient Training
and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。
まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。
これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文 参考訳(メタデータ) (2020-02-26T21:17:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。