論文の概要: Data Scaling Laws in NMT: The Effect of Noise and Architecture
- arxiv url: http://arxiv.org/abs/2202.01994v1
- Date: Fri, 4 Feb 2022 06:53:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-07 14:06:29.159220
- Title: Data Scaling Laws in NMT: The Effect of Noise and Architecture
- Title(参考訳): NMTにおけるデータスケーリングの法則:騒音と建築の影響
- Authors: Yamini Bansal, Behrooz Ghorbani, Ankush Garg, Biao Zhang, Maxim
Krikun, Colin Cherry, Behnam Neyshabur, Orhan Firat
- Abstract要約: ニューラルネットワーク翻訳(NMT)のデータスケーリング特性に及ぼすアーキテクチャとトレーニングデータ品質の影響について検討する。
データスケーリング指数は最小限の影響を受けており、より多くのデータを追加することで、極端に悪いアーキテクチャやトレーニングデータの補償が可能になることを示唆しています。
- 参考スコア(独自算出の注目度): 59.767899982937756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we study the effect of varying the architecture and training
data quality on the data scaling properties of Neural Machine Translation
(NMT). First, we establish that the test loss of encoder-decoder transformer
models scales as a power law in the number of training samples, with a
dependence on the model size. Then, we systematically vary aspects of the
training setup to understand how they impact the data scaling laws. In
particular, we change the following (1) Architecture and task setup: We compare
to a transformer-LSTM hybrid, and a decoder-only transformer with a language
modeling loss (2) Noise level in the training distribution: We experiment with
filtering, and adding iid synthetic noise. In all the above cases, we find that
the data scaling exponents are minimally impacted, suggesting that marginally
worse architectures or training data can be compensated for by adding more
data. Lastly, we find that using back-translated data instead of parallel data,
can significantly degrade the scaling exponent.
- Abstract(参考訳): 本研究では,ニューラルマシン翻訳(nmt)のデータスケーリング特性に対するアーキテクチャ変化とデータ品質のトレーニングの影響について検討する。
まず,エンコーダ・デコーダ・トランスモデルの試験損失が,モデルサイズに依存したトレーニングサンプル数におけるパワー則としてスケールすることが確認された。
そして、トレーニング設定の側面を体系的に変化させ、それがデータスケーリング法則に与える影響を理解する。
特に,(1) アーキテクチャとタスク設定の変更: トランスフォーマ-LSTMハイブリッドとデコーダのみのトランスフォーマを言語モデリング損失と比較する(2) トレーニング分布におけるノイズレベル: フィルタリング実験を行い,iid合成ノイズを付加する。
これらすべてのケースにおいて、データスケーリング指数は最小限の影響を受けており、より多くのデータを追加することで、極端に悪いアーキテクチャやトレーニングデータの補償が可能になることを示唆している。
最後に、並列データの代わりにバックトランスレートデータを使用することで、スケーリング指数を著しく低下させることが分かる。
関連論文リスト
- How Does Data Diversity Shape the Weight Landscape of Neural Networks? [2.89287673224661]
本稿では, ニューラルネットワークのパラメータ空間に対する降雨量, 重量減衰量, 騒音増大の影響について検討する。
我々は、多様なデータが、ドロップアウトと同様の方法で重量景観に影響を与えることを観察する。
合成データにより、実際の入力データにより多くの多様性がもたらされ、アウト・オブ・ディストリビューションテストインスタンスの性能が向上する、と結論付けている。
論文 参考訳(メタデータ) (2024-10-18T16:57:05Z) - When More Data Hurts: Optimizing Data Coverage While Mitigating Diversity Induced Underfitting in an Ultra-Fast Machine-Learned Potential [0.0]
本研究では,学習データの多様性が機械学習型原子間ポテンシャル(MLIP)の性能に与える影響について検討する。
専門家と自律的に生成されたデータを使って、トレーニングデータを作成し、4つのフォースフィールドの変種をデータのサブセットに適合させる。
多様性不足は一般化を妨げるが,過度の多様性はMLIPの学習能力を超えうる。
論文 参考訳(メタデータ) (2024-09-11T20:45:44Z) - Scaling Retrieval-Based Language Models with a Trillion-Token Datastore [85.4310806466002]
検索ベースLMが使用するデータストアのサイズを増大させることで,言語モデリングや下流タスクを一元的に改善できることがわかった。
データストア、モデル、事前学習データサイズで計算最適スケーリング曲線をプロットすることにより、より大きなデータストアを使用することで、同じトレーニング計算予算のモデル性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-07-09T08:27:27Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Dataset Quantization [72.61936019738076]
大規模データセットを小さなサブセットに圧縮する新しいフレームワークであるデータセット量子化(DQ)を提案する。
DQは、ImageNet-1kのような大規模データセットを最先端圧縮比で蒸留する最初の方法である。
論文 参考訳(メタデータ) (2023-08-21T07:24:29Z) - The Lie Derivative for Measuring Learned Equivariance [84.29366874540217]
我々は、CNN、トランスフォーマー、ミキサーアーキテクチャにまたがる数百の事前訓練されたモデルの同値性について検討する。
その結果,不等式違反の多くは,不等式などのユビキタスネットワーク層における空間エイリアスに関連付けられることがわかった。
例えば、トランスはトレーニング後の畳み込みニューラルネットワークよりも同種である。
論文 参考訳(メタデータ) (2022-10-06T15:20:55Z) - An Empirical Evaluation of the t-SNE Algorithm for Data Visualization in
Structural Engineering [2.4493299476776773]
t-Distributed Neighbor Embedding (t-SNE)アルゴリズムは、可視化目的で設定された地震関連データセットの寸法を縮小するために用いられる。
SMOTE(Synthetic Minority Oversampling Technique)は、このようなデータセットの不均衡な性質に対処するために用いられる。
トレーニングデータセットにおけるt-SNEとSMOTEを用いて、ニューラルネットワーク分類器は精度を犠牲にすることなく、有望な結果が得られることを示す。
論文 参考訳(メタデータ) (2021-09-18T01:24:39Z) - Scaling Laws for Transfer [0.5432984841650929]
本研究では,教師なし微調整環境における分布間の移動学習のスケーリング法則について検討する。
提案手法は,パラメータ数と微調整データセットサイズに比例したパワーロー則を用いて,データ転送の効率をよく記述する。
論文 参考訳(メタデータ) (2021-02-02T04:07:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。