論文の概要: Scaling Laws for Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2109.07740v1
- Date: Thu, 16 Sep 2021 06:15:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-17 14:18:44.377145
- Title: Scaling Laws for Neural Machine Translation
- Title(参考訳): ニューラルマシン翻訳のスケーリング則
- Authors: Behrooz Ghorbani, Orhan Firat, Markus Freitag, Ankur Bapna, Maxim
Krikun, Xavier Garcia, Ciprian Chelba, Colin Cherry
- Abstract要約: モデルサイズ関数としてのクロスエントロピー損失は, あるスケーリング法則に従うことを示す。
また,クロスエントロピー損失と翻訳の質との関係についても検討した。
- 参考スコア(独自算出の注目度): 21.76567580425173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an empirical study of scaling properties of encoder-decoder
Transformer models used in neural machine translation (NMT). We show that
cross-entropy loss as a function of model size follows a certain scaling law.
Specifically (i) We propose a formula which describes the scaling behavior of
cross-entropy loss as a bivariate function of encoder and decoder size, and
show that it gives accurate predictions under a variety of scaling approaches
and languages; we show that the total number of parameters alone is not
sufficient for such purposes. (ii) We observe different power law exponents
when scaling the decoder vs scaling the encoder, and provide recommendations
for optimal allocation of encoder/decoder capacity based on this observation.
(iii) We also report that the scaling behavior of the model is acutely
influenced by composition bias of the train/test sets, which we define as any
deviation from naturally generated text (either via machine generated or human
translated text). We observe that natural text on the target side enjoys
scaling, which manifests as successful reduction of the cross-entropy loss.
(iv) Finally, we investigate the relationship between the cross-entropy loss
and the quality of the generated translations. We find two different behaviors,
depending on the nature of the test data. For test sets which were originally
translated from target language to source language, both loss and BLEU score
improve as model size increases. In contrast, for test sets originally
translated from source language to target language, the loss improves, but the
BLEU score stops improving after a certain threshold. We release generated text
from all models used in this study.
- Abstract(参考訳): ニューラルネットワーク翻訳(NMT)におけるエンコーダ・デコーダ変換モデルのスケーリング特性について実験的検討を行った。
モデルサイズ関数としてのクロスエントロピー損失は, あるスケーリング法則に従うことを示す。
具体的には
(i)エントロピー損失のスケーリング挙動をエンコーダとデコーダの大きさの2変数関数として記述する式を提案し,様々なスケーリング手法や言語で正確な予測を行うことを示す。
(ii)デコーダのスケーリング時とエンコーダのスケーリング時に異なる電力法則指数を観察し、この観測に基づいてエンコーダ/デコーダ容量の最適割り当てを推奨する。
(iii)また,モデルのスケーリング挙動は,自然生成テキスト(機械生成テキストや人間の翻訳テキスト)からの逸脱と定義される,列車/テストセットの構成バイアスに強く影響されていることを報告した。
対象側の自然なテキストはスケーリングを楽しみ、これはクロスエントロピー損失の低減に成功していることを示す。
(iv) 最後に, クロスエントロピー損失と生成する翻訳の質との関係について検討する。
テストデータの性質によって、2つの異なる振る舞いを見つけます。
元々ターゲット言語からソース言語に翻訳されたテストセットでは、モデルサイズが大きくなるにつれて損失とBLEUスコアが向上する。
対照的に、元来ソース言語からターゲット言語に翻訳されたテストセットでは、損失は改善されるが、BLEUスコアは一定の閾値の後に改善されなくなる。
本研究で使用するすべてのモデルから生成されたテキストをリリースする。
関連論文リスト
- Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning [73.73967342609603]
トラクションエラーを最小限に抑えるための予測-相関学習フレームワークを提案する。
また、高次予測器を強化するために、指数関数的移動平均ベース係数学習法を提案する。
我々のモデルは3.8BのDeepNetを平均2.9のSacreBLEUで上回り、1/3のパラメータしか使用していない。
論文 参考訳(メタデータ) (2024-11-05T12:26:25Z) - Autoregressive Speech Synthesis without Vector Quantization [135.4776759536272]
テキストから音声合成(TTS)のための新しい連続値トークンに基づく言語モデリング手法であるMELLEを提案する。
MELLEはテキスト条件から直接連続メル-スペクトログラムフレームを自動回帰生成する。
論文 参考訳(メタデータ) (2024-07-11T14:36:53Z) - Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。
本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。
本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-07-03T08:15:39Z) - Tilt your Head: Activating the Hidden Spatial-Invariance of Classifiers [0.7704032792820767]
ディープニューラルネットワークは、日々の生活の多くの領域に適用されている。
これらは、空間的に変換された入力信号に頑健に対処するなど、依然として必須の能力が欠如している。
本稿では,ニューラルネットの推論過程をエミュレートする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T09:47:29Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Towards Fine-Grained Information: Identifying the Type and Location of
Translation Errors [80.22825549235556]
既存のアプローチでは、エラーの位置と型を同期的に考慮することはできない。
我々はtextbf の追加と textbfomission エラーを予測するために FG-TED モデルを構築した。
実験により,本モデルではエラータイプと位置の同時同定が可能であり,最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-02-17T16:20:33Z) - Why Does Surprisal From Larger Transformer-Based Language Models Provide
a Poorer Fit to Human Reading Times? [9.909170013118775]
トレーニング中にシーケンスを「記憶する」ためにトランスフォーマーをベースとした大規模モデルの妥当性は、その前提推定を人間的な期待から逸脱させる。
これらの結果から,大規模トランスフォーマーモデルがトレーニング中にシーケンスを「記憶する」ことの妥当性は,人為的な予測から逸脱することが示唆された。
論文 参考訳(メタデータ) (2022-12-23T03:57:54Z) - Broken Neural Scaling Laws [9.020652910657931]
ブロークニューラルスケーリング法(BNSL)は、ディープニューラルネットワークのスケーリング挙動を正確にモデル化し、外挿する。
このセットには、大規模ビジョン、言語、オーディオ、ビデオ、拡散、生成モデリング、マルチモーダル学習、コントラスト学習、AIアライメント、ロボット工学、アウト・オブ・ディストリビューション(OOD)一般化が含まれる。
論文 参考訳(メタデータ) (2022-10-26T17:45:01Z) - Scaling Laws for Autoregressive Generative Modeling [30.051804305320424]
生成画像モデリング,ビデオモデリング,マルチモーダル画像$leftarrow$textモデル,数学的問題解決の4つの領域におけるクロスエントロピー損失に対する経験的スケーリング法則を同定する。
いずれの場合も、モデルのサイズや計算予算が増加するにつれて、自動回帰変換器はパフォーマンスを円滑に改善する。
論文 参考訳(メタデータ) (2020-10-28T02:17:24Z) - Understanding Neural Abstractive Summarization Models via Uncertainty [54.37665950633147]
seq2seq抽象要約モデルは、自由形式の方法でテキストを生成する。
モデルのトークンレベルの予測のエントロピー、すなわち不確実性について検討する。
要約とテキスト生成モデルをより広範囲に解析する上で,不確実性は有用であることを示す。
論文 参考訳(メタデータ) (2020-10-15T16:57:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。