Fugu-MT 論文翻訳(概要): Data Scaling Laws in NMT: The Effect of Noise and Architecture

論文の概要: Data Scaling Laws in NMT: The Effect of Noise and Architecture

arxiv url: http://arxiv.org/abs/2202.01994v1
Date: Fri, 4 Feb 2022 06:53:49 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-07 14:06:29.159220
Title: Data Scaling Laws in NMT: The Effect of Noise and Architecture
Title（参考訳）: NMTにおけるデータスケーリングの法則:騒音と建築の影響
Authors: Yamini Bansal, Behrooz Ghorbani, Ankush Garg, Biao Zhang, Maxim Krikun, Colin Cherry, Behnam Neyshabur, Orhan Firat
Abstract要約: ニューラルネットワーク翻訳(NMT)のデータスケーリング特性に及ぼすアーキテクチャとトレーニングデータ品質の影響について検討する。データスケーリング指数は最小限の影響を受けており、より多くのデータを追加することで、極端に悪いアーキテクチャやトレーニングデータの補償が可能になることを示唆しています。
参考スコア（独自算出の注目度）: 59.767899982937756
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we study the effect of varying the architecture and training data quality on the data scaling properties of Neural Machine Translation (NMT). First, we establish that the test loss of encoder-decoder transformer models scales as a power law in the number of training samples, with a dependence on the model size. Then, we systematically vary aspects of the training setup to understand how they impact the data scaling laws. In particular, we change the following (1) Architecture and task setup: We compare to a transformer-LSTM hybrid, and a decoder-only transformer with a language modeling loss (2) Noise level in the training distribution: We experiment with filtering, and adding iid synthetic noise. In all the above cases, we find that the data scaling exponents are minimally impacted, suggesting that marginally worse architectures or training data can be compensated for by adding more data. Lastly, we find that using back-translated data instead of parallel data, can significantly degrade the scaling exponent.
Abstract（参考訳）: 本研究では,ニューラルマシン翻訳(nmt)のデータスケーリング特性に対するアーキテクチャ変化とデータ品質のトレーニングの影響について検討する。まず,エンコーダ・デコーダ・トランスモデルの試験損失が,モデルサイズに依存したトレーニングサンプル数におけるパワー則としてスケールすることが確認された。そして、トレーニング設定の側面を体系的に変化させ、それがデータスケーリング法則に与える影響を理解する。特に,(1) アーキテクチャとタスク設定の変更: トランスフォーマ-LSTMハイブリッドとデコーダのみのトランスフォーマを言語モデリング損失と比較する(2) トレーニング分布におけるノイズレベル: フィルタリング実験を行い,iid合成ノイズを付加する。これらすべてのケースにおいて、データスケーリング指数は最小限の影響を受けており、より多くのデータを追加することで、極端に悪いアーキテクチャやトレーニングデータの補償が可能になることを示唆している。最後に、並列データの代わりにバックトランスレートデータを使用することで、スケーリング指数を著しく低下させることが分かる。

関連論文リスト

LLMs on the Line: Data Determines Loss-to-Loss Scaling Laws [21.053622641336744]
ロス・ツー・ロスのスケーリング法則は、事前トレーニングされたデータセットと下流タスク間の損失を関連付ける。実験の結果,事前学習データとトークン化器がスケーリングの傾向を決定することがわかった。
論文参考訳（メタデータ） (2025-02-17T18:45:25Z)
Understanding Scaling Laws with Statistical and Approximation Theory for Transformer Neural Networks on Intrinsically Low-dimensional Data [4.481230230086981]
ディープニューラルネットワークでは、モデルのサイズとデータサイズの両方に依存するパワースケーリング法則に従うために、モデルの一般化誤差がしばしば観察される。本理論は, 一般化誤差とトレーニングデータサイズと変圧器のネットワークサイズとの間のパワー則を予測する。多様体仮説の下で低次元のデータ構造を利用することにより、データ幾何学を尊重する方法でトランスフォーマースケーリング法則を説明することができる。
論文参考訳（メタデータ） (2024-11-11T01:05:28Z)
How Does Data Diversity Shape the Weight Landscape of Neural Networks? [2.89287673224661]
本稿では, ニューラルネットワークのパラメータ空間に対する降雨量, 重量減衰量, 騒音増大の影響について検討する。我々は、多様なデータが、ドロップアウトと同様の方法で重量景観に影響を与えることを観察する。合成データにより、実際の入力データにより多くの多様性がもたらされ、アウト・オブ・ディストリビューションテストインスタンスの性能が向上する、と結論付けている。
論文参考訳（メタデータ） (2024-10-18T16:57:05Z)
When More Data Hurts: Optimizing Data Coverage While Mitigating Diversity Induced Underfitting in an Ultra-Fast Machine-Learned Potential [0.0]
本研究では,学習データの多様性が機械学習型原子間ポテンシャル(MLIP)の性能に与える影響について検討する。専門家と自律的に生成されたデータを使って、トレーニングデータを作成し、4つのフォースフィールドの変種をデータのサブセットに適合させる。多様性不足は一般化を妨げるが,過度の多様性はMLIPの学習能力を超えうる。
論文参考訳（メタデータ） (2024-09-11T20:45:44Z)
Scaling Retrieval-Based Language Models with a Trillion-Token Datastore [85.4310806466002]
検索ベースLMが使用するデータストアのサイズを増大させることで,言語モデリングや下流タスクを一元的に改善できることがわかった。データストア、モデル、事前学習データサイズで計算最適スケーリング曲線をプロットすることにより、より大きなデータストアを使用することで、同じトレーニング計算予算のモデル性能を大幅に向上させることができることを示す。
論文参考訳（メタデータ） (2024-07-09T08:27:27Z)
Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文参考訳（メタデータ） (2024-03-11T16:22:41Z)
Understanding and Mitigating the Label Noise in Pre-training on Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文参考訳（メタデータ） (2023-09-29T06:18:15Z)
Dataset Quantization [72.61936019738076]
大規模データセットを小さなサブセットに圧縮する新しいフレームワークであるデータセット量子化(DQ)を提案する。 DQは、ImageNet-1kのような大規模データセットを最先端圧縮比で蒸留する最初の方法である。
論文参考訳（メタデータ） (2023-08-21T07:24:29Z)
The Lie Derivative for Measuring Learned Equivariance [84.29366874540217]
我々は、CNN、トランスフォーマー、ミキサーアーキテクチャにまたがる数百の事前訓練されたモデルの同値性について検討する。その結果,不等式違反の多くは,不等式などのユビキタスネットワーク層における空間エイリアスに関連付けられることがわかった。例えば、トランスはトレーニング後の畳み込みニューラルネットワークよりも同種である。
論文参考訳（メタデータ） (2022-10-06T15:20:55Z)
An Empirical Evaluation of the t-SNE Algorithm for Data Visualization in Structural Engineering [2.4493299476776773]
t-Distributed Neighbor Embedding (t-SNE)アルゴリズムは、可視化目的で設定された地震関連データセットの寸法を縮小するために用いられる。 SMOTE(Synthetic Minority Oversampling Technique)は、このようなデータセットの不均衡な性質に対処するために用いられる。トレーニングデータセットにおけるt-SNEとSMOTEを用いて、ニューラルネットワーク分類器は精度を犠牲にすることなく、有望な結果が得られることを示す。
論文参考訳（メタデータ） (2021-09-18T01:24:39Z)
Scaling Laws for Transfer [0.5432984841650929]
本研究では,教師なし微調整環境における分布間の移動学習のスケーリング法則について検討する。提案手法は,パラメータ数と微調整データセットサイズに比例したパワーロー則を用いて,データ転送の効率をよく記述する。
論文参考訳（メタデータ） (2021-02-02T04:07:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。