論文の概要: Softmax Tempering for Training Neural Machine Translation Models
- arxiv url: http://arxiv.org/abs/2009.09372v1
- Date: Sun, 20 Sep 2020 07:06:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 12:24:22.482963
- Title: Softmax Tempering for Training Neural Machine Translation Models
- Title(参考訳): ニューラルネットワーク翻訳モデルの訓練用ソフトマックステンパリング
- Authors: Raj Dabre and Atsushi Fujita
- Abstract要約: トレーニング中にソフトマックスを適用する前に,ロジットを温度係数で分割することを提案する。
11言語対の実験では,最大3.9BLEU点の翻訳品質が大幅に向上した。
また,マルチリンガルNMTおよび繰り返し積み重ねNMTに対するソフトマックステンパリングの影響について検討した。
- 参考スコア(独自算出の注目度): 24.00130933505408
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural machine translation (NMT) models are typically trained using a softmax
cross-entropy loss where the softmax distribution is compared against smoothed
gold labels. In low-resource scenarios, NMT models tend to over-fit because the
softmax distribution quickly approaches the gold label distribution. To address
this issue, we propose to divide the logits by a temperature coefficient, prior
to applying softmax, during training. In our experiments on 11 language pairs
in the Asian Language Treebank dataset and the WMT 2019 English-to-German
translation task, we observed significant improvements in translation quality
by up to 3.9 BLEU points. Furthermore, softmax tempering makes the greedy
search to be as good as beam search decoding in terms of translation quality,
enabling 1.5 to 3.5 times speed-up. We also study the impact of softmax
tempering on multilingual NMT and recurrently stacked NMT, both of which aim to
reduce the NMT model size by parameter sharing thereby verifying the utility of
temperature in developing compact NMT models. Finally, an analysis of softmax
entropies and gradients reveal the impact of our method on the internal
behavior of NMT models.
- Abstract(参考訳): ニューラルマシン翻訳(NMT)モデルは通常、ソフトマックスのクロスエントロピー損失を用いて訓練され、ソフトマックスの分布は滑らかなゴールドラベルと比較される。
低リソースシナリオでは、NMTモデルはソフトマックス分布がすぐにゴールドラベル分布に近づくため、過度に適合する傾向にある。
そこで本研究では, トレーニング中にソフトマックスを適用する前に, 温度係数でロジットを分割する手法を提案する。
アジア言語ツリーバンクデータセットとWMT 2019英語-ドイツ語翻訳タスクにおける11言語ペアの実験では、最大3.9BLEUポイントの翻訳品質が大幅に改善された。
さらにsoftmaxのテンパリングは、翻訳品質の面ではビーム検索デコードに匹敵し、1.5倍から3.5倍の高速化を実現している。
また,マルチリンガルNMTおよび繰り返し積み重ねNMTに対するソフトマックステンパリングの影響について検討し,パラメータ共有によるNMTモデルサイズ削減を目標とし,コンパクトNMTモデルの開発における温度の有用性を検証する。
最後に, ソフトマックスエントロピーと勾配の解析により, NMTモデルの内部挙動に与える影響を明らかにした。
関連論文リスト
- Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - Exploiting Language Relatedness in Machine Translation Through Domain
Adaptation Techniques [3.257358540764261]
文のスケール化類似度スコアを,特に5グラムのKenLM言語モデルに基づく関連言語に適用する手法を提案する。
提案手法は, マルチドメインアプローチでは2 BLEU点, NMTでは3 BLEU点, 反復的バックトランスレーションアプローチでは2 BLEU点の増加に成功している。
論文 参考訳(メタデータ) (2023-03-03T09:07:30Z) - Better Datastore, Better Translation: Generating Datastores from
Pre-Trained Models for Nearest Neural Machine Translation [48.58899349349702]
Nearest Neighbor Machine Translation (kNNMT)は、トークンレベルの近接した近接検索機構を備えた、ニューラルネットワーク翻訳(NMT)の簡易かつ効果的な方法である。
本稿では,kNN-MTにおけるデータストアの事前学習モデルを活用するフレームワークであるPreDを提案する。
論文 参考訳(メタデータ) (2022-12-17T08:34:20Z) - Improving Simultaneous Machine Translation with Monolingual Data [94.1085601198393]
同時機械翻訳(SiMT)は通常、全文ニューラルネットワーク翻訳(NMT)モデルからシーケンスレベルの知識蒸留(Seq-KD)によって行われる。
本稿では,Sq-KD で蒸留した外部モノリンガルデータとバイリンガルデータを組み合わせて,SiMT の学生を訓練する SiMT の改善のためにモノリンガルデータを活用することを提案する。
論文 参考訳(メタデータ) (2022-12-02T14:13:53Z) - Jam or Cream First? Modeling Ambiguity in Neural Machine Translation
with SCONES [10.785577504399077]
本稿では,ソフトマックスのアクティベーションを,あいまいさをより効果的にモデル化できるマルチラベル分類層に置き換えることを提案する。
SCONES損失関数を用いて,マルチラベル出力層を単一参照トレーニングデータ上でトレーニング可能であることを示す。
SCONESは、適切な翻訳に最も高い確率を割り当てるNMTモデルのトレーニングに利用できることを示す。
論文 参考訳(メタデータ) (2022-05-02T07:51:37Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Reward Optimization for Neural Machine Translation with Learned Metrics [18.633477083783248]
我々は,最先端のモデルベースメトリクスBLEURTを用いてニューラル機械翻訳(NMT)モデルを最適化することが有用かどうかを検討する。
その結果、BLEURTによる報酬最適化は、平滑なBLEUでトレーニングする場合の限られた利益とは対照的に、メトリクススコアを大きなマージンで増加させることができます。
論文 参考訳(メタデータ) (2021-04-15T15:53:31Z) - Translating the Unseen? Yor\`ub\'a $\rightarrow$ English MT in
Low-Resource, Morphologically-Unmarked Settings [8.006185289499049]
特定の特徴が一方で形態素的にマークされているが、他方で欠落または文脈的にマークされている言語間の翻訳は、機械翻訳の重要なテストケースである。
本研究では,Yorub'a の素名詞を英語に翻訳する際に,SMTシステムと2つの NMT システムとの比較を行う。
論文 参考訳(メタデータ) (2021-03-07T01:24:09Z) - Improving Target-side Lexical Transfer in Multilingual Neural Machine
Translation [104.10726545151043]
マルチリンガルデータは、LRLからターゲット言語に翻訳するNMTモデルにとって、LRLに翻訳するモデルよりも有益であることが判明した。
実験の結果,DecSDEは最大1.8BLEUの英語から4つの言語への翻訳において一貫した向上をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-10-04T19:42:40Z) - On the Inference Calibration of Neural Machine Translation [54.48932804996506]
校正と翻訳性能と誤校正の言語特性の相関について検討した。
そこで本研究では,推論キャリブレーションと翻訳性能を両立できる新しいラベル平滑化手法を提案する。
論文 参考訳(メタデータ) (2020-05-03T02:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。