論文の概要: Focus on the Target's Vocabulary: Masked Label Smoothing for Machine
Translation
- arxiv url: http://arxiv.org/abs/2203.02889v1
- Date: Sun, 6 Mar 2022 07:01:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 14:37:44.634483
- Title: Focus on the Target's Vocabulary: Masked Label Smoothing for Machine
Translation
- Title(参考訳): ターゲットの語彙に焦点をあてる:機械翻訳のためのマスケッドラベル平滑化
- Authors: Liang Chen, Runxin Xu, Baobao Chang
- Abstract要約: Masked Label Smoothing (MLS)は、ソース側の単語のソフトラベル確率をゼロに隠蔽する新しいメカニズムである。
実験の結果,MLSは異なるデータセット上でのラベルスムース化よりも改善することがわかった。
- 参考スコア(独自算出の注目度): 25.781293857729864
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Label smoothing and vocabulary sharing are two widely used techniques in
neural machine translation models. However, we argue that simply applying both
techniques can be conflicting and even leads to sub-optimal performance. When
allocating smoothed probability, original label smoothing treats the
source-side words that would never appear in the target language equally to the
real target-side words, which could bias the translation model. To address this
issue, we propose Masked Label Smoothing (MLS), a new mechanism that masks the
soft label probability of source-side words to zero. Simple yet effective, MLS
manages to better integrate label smoothing with vocabulary sharing. Our
extensive experiments show that MLS consistently yields improvement over
original label smoothing on different datasets, including bilingual and
multilingual translation from both translation quality and model's calibration.
Our code is released at https://github.com/PKUnlp-icler/MLS
- Abstract(参考訳): ラベル平滑化と語彙共有はニューラルマシン翻訳モデルで広く使われている2つの技術である。
しかし、両方のテクニックを単純に適用することは相反する可能性があり、また、サブ最適性能にも繋がる。
平滑化確率を割り当てるとき、元のラベル平滑化は、ターゲット言語に決して現れないソース側の単語を実際のターゲット側の単語と等しく扱い、翻訳モデルにバイアスを与える。
この問題に対処するために、ソース側単語のソフトラベル確率をゼロに隠蔽する新しいメカニズムであるMasked Label Smoothing (MLS)を提案する。
MLSは単純だが効果的であり、ラベルスムーシングと語彙共有をうまく統合する。
我々の広範な実験により、MLSは、翻訳品質とモデルキャリブレーションの両方からバイリンガルおよび多言語翻訳を含む、異なるデータセット上でスムーズなオリジナルのラベルよりも一貫して改善されていることが示されている。
私たちのコードはhttps://github.com/PKUnlp-icler/MLSでリリースされています。
関連論文リスト
- LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。
我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-03T15:30:36Z) - Improving Multi-lingual Alignment Through Soft Contrastive Learning [9.454626745893798]
本稿では,事前学習した単言語埋め込みモデルによって測定された文の類似性に基づいて,多言語埋め込みを整合させる新しい手法を提案する。
翻訳文ペアが与えられた場合、言語間埋め込み間の類似性は、単言語教師モデルで測定された文の類似性に従うように、多言語モデルを訓練する。
論文 参考訳(メタデータ) (2024-05-25T09:46:07Z) - Constrained Decoding for Cross-lingual Label Projection [27.567195418950966]
ラベル付き学習データを持たない低リソース言語では,多言語 LLM を用いた言語間移動が一般的な学習パラダイムとなっている。
しかし、単語やフレーズの微粒な予測を含むNLPタスクでは、ゼロショットの言語間移動学習は教師付き微調整法よりもはるかに遅れている。
論文 参考訳(メタデータ) (2024-02-05T15:57:32Z) - Contextual Label Projection for Cross-Lingual Structured Prediction [103.55999471155104]
CLaPはテキストを対象言語に翻訳し、翻訳されたテキストをコンテキストとしてラベルにコンテキスト変換を行う。
39言語間のゼロショット言語間転送において,CLaPと他のラベル投影手法のベンチマークを行った。
論文 参考訳(メタデータ) (2023-09-16T10:27:28Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - Jam or Cream First? Modeling Ambiguity in Neural Machine Translation
with SCONES [10.785577504399077]
本稿では,ソフトマックスのアクティベーションを,あいまいさをより効果的にモデル化できるマルチラベル分類層に置き換えることを提案する。
SCONES損失関数を用いて,マルチラベル出力層を単一参照トレーニングデータ上でトレーニング可能であることを示す。
SCONESは、適切な翻訳に最も高い確率を割り当てるNMTモデルのトレーニングに利用できることを示す。
論文 参考訳(メタデータ) (2022-05-02T07:51:37Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - MELM: Data Augmentation with Masked Entity Language Modeling for
Cross-lingual NER [73.91145686634133]
Masked-Entity Language Modeling (MELM) を用いたデータ拡張フレームワークを提案する。
MELMは、NERラベルを文コンテキストに線形化するので、細調整されたMELMは、ラベルを明示的に条件付けすることでマスク付きトークンを予測することができる。
未ラベル対象データが利用可能で、MELMが擬似ラベル対象データの拡張にさらに適用可能な場合、性能ゲインは5.7%に達する。
論文 参考訳(メタデータ) (2021-08-31T07:37:43Z) - Label Mask for Multi-Label Text Classification [6.742627397194543]
本稿では,言語モデルのクローズ問題に着想を得た多言語テキスト分類モデル (LM-MTC) を提案する。
そこで,各潜在的なラベルに対して異なるトークンを割り当て,ある確率でランダムにトークンをマスクし,ラベルに基づくマスケッド言語モデル(MLM)を構築する。
論文 参考訳(メタデータ) (2021-06-18T11:54:33Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。