論文の概要: Scaling Laws for Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2109.07740v1
- Date: Thu, 16 Sep 2021 06:15:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-17 14:18:44.377145
- Title: Scaling Laws for Neural Machine Translation
- Title(参考訳): ニューラルマシン翻訳のスケーリング則
- Authors: Behrooz Ghorbani, Orhan Firat, Markus Freitag, Ankur Bapna, Maxim
Krikun, Xavier Garcia, Ciprian Chelba, Colin Cherry
- Abstract要約: モデルサイズ関数としてのクロスエントロピー損失は, あるスケーリング法則に従うことを示す。
また,クロスエントロピー損失と翻訳の質との関係についても検討した。
- 参考スコア(独自算出の注目度): 21.76567580425173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an empirical study of scaling properties of encoder-decoder
Transformer models used in neural machine translation (NMT). We show that
cross-entropy loss as a function of model size follows a certain scaling law.
Specifically (i) We propose a formula which describes the scaling behavior of
cross-entropy loss as a bivariate function of encoder and decoder size, and
show that it gives accurate predictions under a variety of scaling approaches
and languages; we show that the total number of parameters alone is not
sufficient for such purposes. (ii) We observe different power law exponents
when scaling the decoder vs scaling the encoder, and provide recommendations
for optimal allocation of encoder/decoder capacity based on this observation.
(iii) We also report that the scaling behavior of the model is acutely
influenced by composition bias of the train/test sets, which we define as any
deviation from naturally generated text (either via machine generated or human
translated text). We observe that natural text on the target side enjoys
scaling, which manifests as successful reduction of the cross-entropy loss.
(iv) Finally, we investigate the relationship between the cross-entropy loss
and the quality of the generated translations. We find two different behaviors,
depending on the nature of the test data. For test sets which were originally
translated from target language to source language, both loss and BLEU score
improve as model size increases. In contrast, for test sets originally
translated from source language to target language, the loss improves, but the
BLEU score stops improving after a certain threshold. We release generated text
from all models used in this study.
- Abstract(参考訳): ニューラルネットワーク翻訳(NMT)におけるエンコーダ・デコーダ変換モデルのスケーリング特性について実験的検討を行った。
モデルサイズ関数としてのクロスエントロピー損失は, あるスケーリング法則に従うことを示す。
具体的には
(i)エントロピー損失のスケーリング挙動をエンコーダとデコーダの大きさの2変数関数として記述する式を提案し,様々なスケーリング手法や言語で正確な予測を行うことを示す。
(ii)デコーダのスケーリング時とエンコーダのスケーリング時に異なる電力法則指数を観察し、この観測に基づいてエンコーダ/デコーダ容量の最適割り当てを推奨する。
(iii)また,モデルのスケーリング挙動は,自然生成テキスト(機械生成テキストや人間の翻訳テキスト)からの逸脱と定義される,列車/テストセットの構成バイアスに強く影響されていることを報告した。
対象側の自然なテキストはスケーリングを楽しみ、これはクロスエントロピー損失の低減に成功していることを示す。
(iv) 最後に, クロスエントロピー損失と生成する翻訳の質との関係について検討する。
テストデータの性質によって、2つの異なる振る舞いを見つけます。
元々ターゲット言語からソース言語に翻訳されたテストセットでは、モデルサイズが大きくなるにつれて損失とBLEUスコアが向上する。
対照的に、元来ソース言語からターゲット言語に翻訳されたテストセットでは、損失は改善されるが、BLEUスコアは一定の閾値の後に改善されなくなる。
本研究で使用するすべてのモデルから生成されたテキストをリリースする。
関連論文リスト
- Scaling Laws in Jet Classification [2.1756081703276]
物理的に動機付けられた6つの分類器は、トレーニングセットサイズの関数としてバイナリクロスエントロピーテスト損失のパワー-ロースケーリングを示す。
我々は、自然言語や画像データセットで観測されたスケーリング法則の過去のモデルの観点から、この結果の解釈を推察する。
論文 参考訳(メタデータ) (2023-12-04T19:00:00Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Inverse Scaling: When Bigger Isn't Better [64.993426536523]
大規模言語モデル(LM)は、スケールの増大による全体的な損失に対する予測可能な改善を示している。
我々は,LMが逆スケーリングや,スケールの増大に伴うタスクパフォーマンスの悪化を示す可能性があるという主張を裏付ける証拠を示す。
論文 参考訳(メタデータ) (2023-06-15T20:11:23Z) - Towards Fine-Grained Information: Identifying the Type and Location of
Translation Errors [80.22825549235556]
既存のアプローチでは、エラーの位置と型を同期的に考慮することはできない。
我々はtextbf の追加と textbfomission エラーを予測するために FG-TED モデルを構築した。
実験により,本モデルではエラータイプと位置の同時同定が可能であり,最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-02-17T16:20:33Z) - Why Does Surprisal From Larger Transformer-Based Language Models Provide
a Poorer Fit to Human Reading Times? [9.909170013118775]
トレーニング中にシーケンスを「記憶する」ためにトランスフォーマーをベースとした大規模モデルの妥当性は、その前提推定を人間的な期待から逸脱させる。
これらの結果から,大規模トランスフォーマーモデルがトレーニング中にシーケンスを「記憶する」ことの妥当性は,人為的な予測から逸脱することが示唆された。
論文 参考訳(メタデータ) (2022-12-23T03:57:54Z) - Broken Neural Scaling Laws [9.020652910657931]
ブロークニューラルスケーリング法(BNSL)は、ディープニューラルネットワークのスケーリング挙動を正確にモデル化し、外挿する。
このセットには、大規模ビジョン、言語、オーディオ、ビデオ、拡散、生成モデリング、マルチモーダル学習、コントラスト学習、AIアライメント、ロボット工学、アウト・オブ・ディストリビューション(OOD)一般化が含まれる。
論文 参考訳(メタデータ) (2022-10-26T17:45:01Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Leveraging recent advances in Pre-Trained Language Models
forEye-Tracking Prediction [0.0]
Natural Language Pro-cessingは、視線追跡データなどの人間由来の行動データを使用してニューラルネットを強化し、構文とセマンティクスにまたがるさまざまなタスクを解決する。
本稿では、ZuCo 1.0とZuCo 2.0データセットを用いて、異なる言語モデルを探り、各単語について、その意味について、これらの用語の特徴を直接予測する。
論文 参考訳(メタデータ) (2021-10-09T06:46:48Z) - Tail-to-Tail Non-Autoregressive Sequence Prediction for Chinese
Grammatical Error Correction [49.25830718574892]
本稿では,Tail-to-Tail (textbfTtT) という新しいフレームワークを提案する。
ほとんどのトークンが正しいので、ソースからターゲットに直接転送でき、エラー位置を推定して修正することができる。
標準データセット、特に可変長データセットに関する実験結果は、文レベルの精度、精度、リコール、F1-Measureの観点からTtTの有効性を示す。
論文 参考訳(メタデータ) (2021-06-03T05:56:57Z) - Scaling Laws for Autoregressive Generative Modeling [30.051804305320424]
生成画像モデリング,ビデオモデリング,マルチモーダル画像$leftarrow$textモデル,数学的問題解決の4つの領域におけるクロスエントロピー損失に対する経験的スケーリング法則を同定する。
いずれの場合も、モデルのサイズや計算予算が増加するにつれて、自動回帰変換器はパフォーマンスを円滑に改善する。
論文 参考訳(メタデータ) (2020-10-28T02:17:24Z) - Understanding Neural Abstractive Summarization Models via Uncertainty [54.37665950633147]
seq2seq抽象要約モデルは、自由形式の方法でテキストを生成する。
モデルのトークンレベルの予測のエントロピー、すなわち不確実性について検討する。
要約とテキスト生成モデルをより広範囲に解析する上で,不確実性は有用であることを示す。
論文 参考訳(メタデータ) (2020-10-15T16:57:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。