論文の概要: Small Batch Sizes Improve Training of Low-Resource Neural MT
- arxiv url: http://arxiv.org/abs/2203.10579v1
- Date: Sun, 20 Mar 2022 15:14:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 14:06:15.474685
- Title: Small Batch Sizes Improve Training of Low-Resource Neural MT
- Title(参考訳): 低出力ニューラルMTの訓練を改善する小さなバッチサイズ
- Authors: \`Alex R. Atrio, Andrei Popescu-Belis
- Abstract要約: 低リソース環境でのニューラルマシン翻訳のためのトランスフォーマーのトレーニングを統括する必要不可欠なハイパーパラメータの役割、すなわちバッチサイズについて検討する。
低リソース環境では、バッチサイズが小さくなれば、より短いトレーニング時間でスコアが高くなります。
- 参考スコア(独自算出の注目度): 1.0818470627926648
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the role of an essential hyper-parameter that governs the training
of Transformers for neural machine translation in a low-resource setting: the
batch size. Using theoretical insights and experimental evidence, we argue
against the widespread belief that batch size should be set as large as allowed
by the memory of the GPUs. We show that in a low-resource setting, a smaller
batch size leads to higher scores in a shorter training time, and argue that
this is due to better regularization of the gradients during training.
- Abstract(参考訳): 低リソース環境でのニューラルマシン翻訳のためのトランスフォーマーのトレーニングを統括する必要不可欠なハイパーパラメータの役割について検討する。
理論的洞察と実験的証拠を用いて、バッチサイズはGPUのメモリで許容される大きさに設定されるべきという広く信じられている信念に反対する。
低リソース環境では、バッチサイズが小さくなると、短いトレーニング時間でスコアが高くなることを示し、トレーニング中の勾配の規則化が原因であると主張する。
関連論文リスト
- N-Gram Induction Heads for In-Context RL: Improving Stability and Reducing Data Needs [42.446740732573296]
コンテキスト内学習は、トランスフォーマーのようなモデルが重みを更新することなく、新しいタスクに適応できるようにする。
アルゴリズム蒸留(AD)のような既存のコンテキスト内RL手法では、大きく、慎重にキュレートされたデータセットが要求される。
本研究では,n-gram誘導ヘッドをインコンテキストRLの変換器に統合した。
論文 参考訳(メタデータ) (2024-11-04T10:31:03Z) - The Emergence of Essential Sparsity in Large Pre-trained Models: The
Weights that Matter [113.35761858962522]
本稿では,複数の大きな事前学習された視覚と言語変換器のスパースパターンを誘導する。
本稿では,性能がはるかに速く低下する急激な落差点で定義される本質的疎度の存在を提案する。
また、N:Mのスパーシティパターンと近代的な大規模言語モデルに有効であることを示す。
論文 参考訳(メタデータ) (2023-06-06T15:49:09Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - PLATON: Pruning Large Transformer Models with Upper Confidence Bound of
Weight Importance [114.1541203743303]
本稿では,重要度推定の上位信頼度境界(UCB)による重要度スコアの不確かさを捉えるPLATONを提案する。
我々は、自然言語理解、質問応答、画像分類に関するトランスフォーマーモデルを用いて、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2022-06-25T05:38:39Z) - Existence and Estimation of Critical Batch Size for Training Generative
Adversarial Networks with Two Time-Scale Update Rule [0.2741266294612775]
これまで、異なる学習率を用いた2つの時間スケール更新ルール(TTUR)が、理論および実際におけるGAN(Generative Adversarial Network)のトレーニングに有用であることが示されてきた。
本稿では,一定の学習率に基づいて,バッチサイズとGANをTTURで訓練するために必要なステップ数との関係について検討する。
論文 参考訳(メタデータ) (2022-01-28T08:52:01Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - On the Generalization Benefit of Noise in Stochastic Gradient Descent [34.127525925676416]
ディープニューラルネットワークにおけるバッチ勾配勾配よりも、ミニバッチ勾配勾配がより一般化できるという主張は、長年にわたって議論されてきた。
小さいバッチサイズや中程度のバッチサイズは、テストセットにおいて非常に大きなバッチよりも大幅に優れています。
論文 参考訳(メタデータ) (2020-06-26T16:18:54Z) - Physics-informed Neural Networks for Solving Inverse Problems of
Nonlinear Biot's Equations: Batch Training [0.0]
バイオメディカルエンジニアリング,地震予知,地中エネルギー収穫では,多孔質体の物理的特性を間接的に推定することが重要である。
ここでは、非線形ビオット方程式に関する逆問題の解法として、物理インフォームドニューラルネットワークを適用する。
論文 参考訳(メタデータ) (2020-05-18T18:48:53Z) - Train Large, Then Compress: Rethinking Model Size for Efficient Training
and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。
まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。
これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文 参考訳(メタデータ) (2020-02-26T21:17:13Z) - A Diffusion Theory For Deep Learning Dynamics: Stochastic Gradient
Descent Exponentially Favors Flat Minima [91.11332770406007]
グラディエントDescent (SGD) は, 鋭いミニマよりも指数関数的に平坦なミニマを好んでいる。
また、小さな学習率か大規模なバッチトレーニングのどちらかが、ミニマから逃れるために指数関数的に多くのイテレーションを必要とすることも明らかにした。
論文 参考訳(メタデータ) (2020-02-10T02:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。