論文の概要: Data Scaling Laws in NMT: The Effect of Noise and Architecture
- arxiv url: http://arxiv.org/abs/2202.01994v1
- Date: Fri, 4 Feb 2022 06:53:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-07 14:06:29.159220
- Title: Data Scaling Laws in NMT: The Effect of Noise and Architecture
- Title(参考訳): NMTにおけるデータスケーリングの法則:騒音と建築の影響
- Authors: Yamini Bansal, Behrooz Ghorbani, Ankush Garg, Biao Zhang, Maxim
Krikun, Colin Cherry, Behnam Neyshabur, Orhan Firat
- Abstract要約: ニューラルネットワーク翻訳(NMT)のデータスケーリング特性に及ぼすアーキテクチャとトレーニングデータ品質の影響について検討する。
データスケーリング指数は最小限の影響を受けており、より多くのデータを追加することで、極端に悪いアーキテクチャやトレーニングデータの補償が可能になることを示唆しています。
- 参考スコア(独自算出の注目度): 59.767899982937756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we study the effect of varying the architecture and training
data quality on the data scaling properties of Neural Machine Translation
(NMT). First, we establish that the test loss of encoder-decoder transformer
models scales as a power law in the number of training samples, with a
dependence on the model size. Then, we systematically vary aspects of the
training setup to understand how they impact the data scaling laws. In
particular, we change the following (1) Architecture and task setup: We compare
to a transformer-LSTM hybrid, and a decoder-only transformer with a language
modeling loss (2) Noise level in the training distribution: We experiment with
filtering, and adding iid synthetic noise. In all the above cases, we find that
the data scaling exponents are minimally impacted, suggesting that marginally
worse architectures or training data can be compensated for by adding more
data. Lastly, we find that using back-translated data instead of parallel data,
can significantly degrade the scaling exponent.
- Abstract(参考訳): 本研究では,ニューラルマシン翻訳(nmt)のデータスケーリング特性に対するアーキテクチャ変化とデータ品質のトレーニングの影響について検討する。
まず,エンコーダ・デコーダ・トランスモデルの試験損失が,モデルサイズに依存したトレーニングサンプル数におけるパワー則としてスケールすることが確認された。
そして、トレーニング設定の側面を体系的に変化させ、それがデータスケーリング法則に与える影響を理解する。
特に,(1) アーキテクチャとタスク設定の変更: トランスフォーマ-LSTMハイブリッドとデコーダのみのトランスフォーマを言語モデリング損失と比較する(2) トレーニング分布におけるノイズレベル: フィルタリング実験を行い,iid合成ノイズを付加する。
これらすべてのケースにおいて、データスケーリング指数は最小限の影響を受けており、より多くのデータを追加することで、極端に悪いアーキテクチャやトレーニングデータの補償が可能になることを示唆している。
最後に、並列データの代わりにバックトランスレートデータを使用することで、スケーリング指数を著しく低下させることが分かる。
関連論文リスト
- Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Dataset Quantization [72.61936019738076]
大規模データセットを小さなサブセットに圧縮する新しいフレームワークであるデータセット量子化(DQ)を提案する。
DQは、ImageNet-1kのような大規模データセットを最先端圧縮比で蒸留する最初の方法である。
論文 参考訳(メタデータ) (2023-08-21T07:24:29Z) - Denoising Low-Rank Data Under Distribution Shift: Double Descent and
Data Augmentation [3.9134031118910264]
教師付き denoising を研究する上での懸念は,テスト分布からのノイズレストレーニングデータが常に存在するとは限らないことだ。
そこで本研究では,分散シフト下での教師付きノイズ除去とノイズインプット回帰について検討した。
論文 参考訳(メタデータ) (2023-05-26T22:41:40Z) - Scaling Data-Constrained Language Models [137.17302576977346]
データ制約付きシステムにおける言語モデルのスケーリングについて検討する。
固定された計算予算に対する制約付きデータでは、反復するデータの最大4つのエポックなトレーニングは、ユニークなデータに比べて損失に対する無視可能な変化をもたらす。
本稿では,繰り返しトークンと過剰パラメータの値の減少を考慮に入れた計算最適性のスケーリング法則を提案し,実証的に検証する。
論文 参考訳(メタデータ) (2023-05-25T17:18:55Z) - Binarized Neural Machine Translation [43.488431560851204]
機械翻訳(BMT)に適用したトランスフォーマーの新しいバイナライズ手法を提案する。
1ビットの重みとアクティベーションを使用する場合の膨らませたドット積分散の問題を特定し,対処する。
WMTデータセットの実験では、1ビットのウェイトオンリートランスフォーマーはフロートと同じ品質を達成できるが、サイズは16倍小さい。
論文 参考訳(メタデータ) (2023-02-09T19:27:34Z) - The Lie Derivative for Measuring Learned Equivariance [49.39804522506397]
我々は、CNN、トランスフォーマー、ミキサーアーキテクチャにまたがる数百の事前訓練されたモデルの同値性について検討する。
その結果,不等式違反の多くは,不等式などのユビキタスネットワーク層における空間エイリアスに関連付けられることがわかった。
例えば、トランスはトレーニング後の畳み込みニューラルネットワークよりも同種である。
論文 参考訳(メタデータ) (2022-10-06T15:20:55Z) - An Empirical Evaluation of the t-SNE Algorithm for Data Visualization in
Structural Engineering [2.4493299476776773]
t-Distributed Neighbor Embedding (t-SNE)アルゴリズムは、可視化目的で設定された地震関連データセットの寸法を縮小するために用いられる。
SMOTE(Synthetic Minority Oversampling Technique)は、このようなデータセットの不均衡な性質に対処するために用いられる。
トレーニングデータセットにおけるt-SNEとSMOTEを用いて、ニューラルネットワーク分類器は精度を犠牲にすることなく、有望な結果が得られることを示す。
論文 参考訳(メタデータ) (2021-09-18T01:24:39Z) - Scaling Laws for Transfer [0.5432984841650929]
本研究では,教師なし微調整環境における分布間の移動学習のスケーリング法則について検討する。
提案手法は,パラメータ数と微調整データセットサイズに比例したパワーロー則を用いて,データ転送の効率をよく記述する。
論文 参考訳(メタデータ) (2021-02-02T04:07:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。