論文の概要: Jam or Cream First? Modeling Ambiguity in Neural Machine Translation
with SCONES
- arxiv url: http://arxiv.org/abs/2205.00704v1
- Date: Mon, 2 May 2022 07:51:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-03 15:29:01.011133
- Title: Jam or Cream First? Modeling Ambiguity in Neural Machine Translation
with SCONES
- Title(参考訳): ジャムかクリームか?
SCONESを用いたニューラルネットワーク翻訳におけるあいまいさのモデル化
- Authors: Felix Stahlberg and Shankar Kumar
- Abstract要約: 本稿では,ソフトマックスのアクティベーションを,あいまいさをより効果的にモデル化できるマルチラベル分類層に置き換えることを提案する。
SCONES損失関数を用いて,マルチラベル出力層を単一参照トレーニングデータ上でトレーニング可能であることを示す。
SCONESは、適切な翻訳に最も高い確率を割り当てるNMTモデルのトレーニングに利用できることを示す。
- 参考スコア(独自算出の注目度): 10.785577504399077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The softmax layer in neural machine translation is designed to model the
distribution over mutually exclusive tokens. Machine translation, however, is
intrinsically uncertain: the same source sentence can have multiple
semantically equivalent translations. Therefore, we propose to replace the
softmax activation with a multi-label classification layer that can model
ambiguity more effectively. We call our loss function Single-label Contrastive
Objective for Non-Exclusive Sequences (SCONES). We show that the multi-label
output layer can still be trained on single reference training data using the
SCONES loss function. SCONES yields consistent BLEU score gains across six
translation directions, particularly for medium-resource language pairs and
small beam sizes. By using smaller beam sizes we can speed up inference by a
factor of 3.9x and still match or improve the BLEU score obtained using
softmax. Furthermore, we demonstrate that SCONES can be used to train NMT
models that assign the highest probability to adequate translations, thus
mitigating the "beam search curse". Additional experiments on synthetic
language pairs with varying levels of uncertainty suggest that the improvements
from SCONES can be attributed to better handling of ambiguity.
- Abstract(参考訳): ニューラルマシン翻訳のsoftmax層は、相互に排他的なトークン上の分布をモデル化するように設計されている。
しかし、機械翻訳は本質的に不確かであり、同じ原文が複数の意味的に等価な翻訳を持つことがある。
そこで本研究では,ソフトマックスアクティベーションを,あいまいさをより効果的にモデル化できるマルチラベル分類層に置き換えることを提案する。
我々は損失関数を非排他的シーケンス(scones)に対する単一ラベルコントラスト目的と呼ぶ。
SCONES損失関数を用いて,マルチラベル出力層を単一参照トレーニングデータ上でトレーニング可能であることを示す。
SCONESは6つの翻訳方向、特に中オープンソースの言語ペアと小さなビームサイズでBLEUスコアが一貫した値を得る。
より小さなビームサイズを使用することで、推論を3.9倍スピードアップし、softmaxで得られるbleuスコアと一致または改善することができる。
さらに、SCONESは、適切な翻訳に最も高い確率を割り当てるNMTモデルを訓練するために使用することができ、「ビーム検索の呪い」を軽減できることを示す。
不確かさのレベルが異なる合成言語対に関するさらなる実験は、スコーネの改良が曖昧さの扱いの改善に寄与していることを示唆している。
関連論文リスト
- Can the Variation of Model Weights be used as a Criterion for Self-Paced Multilingual NMT? [7.330978520551704]
トレーニングデータが不足している場合、多くの1対1のニューラルマシン翻訳システムが1対1のシステムを改善する。
本稿では,そのようなシステムを訓練する際,ミニバッチ言語を選択するための新しいアルゴリズムを設計・テストする。
論文 参考訳(メタデータ) (2024-10-05T12:52:51Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - Focus on the Target's Vocabulary: Masked Label Smoothing for Machine
Translation [25.781293857729864]
Masked Label Smoothing (MLS)は、ソース側の単語のソフトラベル確率をゼロに隠蔽する新しいメカニズムである。
実験の結果,MLSは異なるデータセット上でのラベルスムース化よりも改善することがわかった。
論文 参考訳(メタデータ) (2022-03-06T07:01:39Z) - Anticipation-free Training for Simultaneous Translation [70.85761141178597]
同時翻訳(SimulMT)は、原文が完全に利用可能になる前に翻訳を開始することで翻訳プロセスを高速化する。
既存の手法は遅延を増大させるか、SimulMTモデルに適応的な読み書きポリシーを導入し、局所的なリオーダーを処理し、翻訳品質を改善する。
本稿では,翻訳過程をモノトニック翻訳ステップと並べ替えステップに分解する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-30T16:29:37Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Modelling Latent Translations for Cross-Lingual Transfer [47.61502999819699]
従来のパイプラインの2つのステップ(翻訳と分類)を1つのモデルに統合する新しい手法を提案する。
我々は,多言語NLUタスクにおける新しい潜時翻訳モデルの評価を行った。
ゼロショットと数ショットの学習設定の両方で、平均2.7の精度ポイントのゲインを報告します。
論文 参考訳(メタデータ) (2021-07-23T17:11:27Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Sparse Attention with Linear Units [60.399814410157425]
本稿では, ソフトマックスアクティベーションをReLUに置き換えることにより, 注目度を向上する新しい, 簡便な手法を提案する。
我々のモデルはRectified Linear Attention (ReLA)と呼ばれ、以前提案したスパースアテンション機構よりも実装が容易で効率的である。
分析の結果,RELAは高い空間性率と頭部の多様性を達成でき,ソース・ターゲット単語アライメントの精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-04-14T17:52:38Z) - Smoothing and Shrinking the Sparse Seq2Seq Search Space [2.1828601975620257]
entmaxベースのモデルは、猫を効果的に解決する。
また、Fenchel-Young損失の広い家族にラベルスムーシングを一般化する。
得られたラベルスムーズなエントマックス損失モデルにより,多言語グラフ-音素変換の新たな技術が確立された。
論文 参考訳(メタデータ) (2021-03-18T14:45:38Z) - It's Easier to Translate out of English than into it: Measuring Neural
Translation Difficulty by Cross-Mutual Information [90.35685796083563]
クロスミューチュアル情報(英: Cross-mutual information、XMI)は、機械翻訳の難易度に関する非対称情報理論の指標である。
XMIは、ほとんどのニューラルマシン翻訳モデルの確率的性質を利用する。
本稿では,現代ニューラル翻訳システムを用いた言語間翻訳の難易度に関する最初の体系的および制御的な研究について述べる。
論文 参考訳(メタデータ) (2020-05-05T17:38:48Z) - Multi-layer Representation Fusion for Neural Machine Translation [38.12309528346962]
積層層を融合する多層表現融合(MLRF)手法を提案する。
特に、スタックからより良い表現を学ぶために、3つの融合関数を設計する。
その結果、ドイツ語と英語の翻訳における新たな最先端技術が誕生した。
論文 参考訳(メタデータ) (2020-02-16T23:53:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。