論文の概要: Robust Neural Machine Translation: Modeling Orthographic and
Interpunctual Variation
- arxiv url: http://arxiv.org/abs/2009.05460v2
- Date: Mon, 14 Sep 2020 11:16:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 21:25:01.194107
- Title: Robust Neural Machine Translation: Modeling Orthographic and
Interpunctual Variation
- Title(参考訳): ロバスト・ニューラル・マシン・トランスレーション : オーソグラフィーと相互変動のモデル化
- Authors: Toms Bergmanis, Art\=urs Stafanovi\v{c}s, M\=arcis Pinnis
- Abstract要約: そこで本研究では,10種類の逆例を生成するための簡易な生成ノイズモデルを提案する。
ノイズの多いデータでテストすると、敵の例を使って訓練されたシステムは、クリーンなデータを翻訳するのと同様に、ほぼ同等に機能することを示す。
- 参考スコア(独自算出の注目度): 3.3194866396158
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Neural machine translation systems typically are trained on curated corpora
and break when faced with non-standard orthography or punctuation. Resilience
to spelling mistakes and typos, however, is crucial as machine translation
systems are used to translate texts of informal origins, such as chat
conversations, social media posts and web pages. We propose a simple generative
noise model to generate adversarial examples of ten different types. We use
these to augment machine translation systems' training data and show that, when
tested on noisy data, systems trained using adversarial examples perform almost
as well as when translating clean data, while baseline systems' performance
drops by 2-3 BLEU points. To measure the robustness and noise invariance of
machine translation systems' outputs, we use the average translation edit rate
between the translation of the original sentence and its noised variants. Using
this measure, we show that systems trained on adversarial examples on average
yield 50% consistency improvements when compared to baselines trained on clean
data.
- Abstract(参考訳): ニューラル機械翻訳システムは典型的には、非標準正書法や句読法に直面すると、硬化したコーパスで訓練され、壊れる。
しかし、スペルミスやタイプミスに対する耐性は、機械翻訳システムがチャットチャット、ソーシャルメディア投稿、ウェブページなどの非公式な起源のテキストを翻訳するために使用されるため、非常に重要である。
10種類の異なる種類の逆例を生成するための単純な生成雑音モデルを提案する。
これらは機械翻訳システムのトレーニングデータを強化し、ノイズの多いデータでテストすると、逆の例を使って訓練されたシステムはクリーンなデータを翻訳するのとほぼ同等の性能を発揮し、ベースラインシステムのパフォーマンスは2-3 bleuポイント低下することを示した。
機械翻訳システムの出力のロバスト性やノイズ不変性を計測するために,原文の翻訳と雑音のある変種の間の平均翻訳編集率を用いる。
この尺度を用いて,クリーンデータでトレーニングされたベースラインと比較して,平均50%の一貫性向上が得られることを示す。
関連論文リスト
- How to Learn in a Noisy World? Self-Correcting the Real-World Data Noise on Machine Translation [10.739338438716965]
実世界のハード・トゥ・デテクト・ミスアライメントノイズが機械翻訳に与える影響について検討する。
トークンレベルでの不整合とクリーンなデータを区別するために,モデルの自己認識の信頼性が高まるのを観察することにより,自己補正手法を提案する。
提案手法は,8つの翻訳タスクにまたがる実世界のノイズの多いWebマイニングデータセットに対して有効であることを示す。
論文 参考訳(メタデータ) (2024-07-02T12:15:15Z) - Quality Estimation of Machine Translated Texts based on Direct Evidence
from Training Data [0.0]
MTシステムのトレーニングデータとして使用される並列コーパスは,MTシステムによって生成された翻訳の質を推定するための直接的な手がかりを有することを示す。
実験の結果,本手法は純粋にデータ駆動型機械翻訳システムによって生成された翻訳の品質評価に有効であることがわかった。
論文 参考訳(メタデータ) (2023-06-27T11:52:28Z) - How sensitive are translation systems to extra contexts? Mitigating
gender bias in Neural Machine Translation models through relevant contexts [11.684346035745975]
ますます多くの研究が、ニューラルマシン翻訳モデルがトレーニング中に導入する固有の性バイアスを強調している。
そこで本研究では,これらのモデルに対して,対象とした指示をコンテキストとして,推論中にバイアスを修正するように指示できるかどうかを検討する。
3つの一般的なテストスイート間で、翻訳における性別バイアスの低減に関する大幅な改善を観察する。
論文 参考訳(メタデータ) (2022-05-22T06:31:54Z) - How Robust is Neural Machine Translation to Language Imbalance in
Multilingual Tokenizer Training? [86.48323488619629]
トークン化学習コーパスにおいて,言語間でのデータ比が変化するにつれて,翻訳性能がどう変化するかを分析する。
言語が均等にサンプリングされる場合、比較的優れたパフォーマンスが観察されることが多いが、下流のパフォーマンスは、通常予想していたよりも、言語の不均衡に対して堅牢である。
論文 参考訳(メタデータ) (2022-04-29T17:50:36Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z) - On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-07T01:55:34Z) - Improving Translation Robustness with Visual Cues and Error Correction [58.97421756225425]
ノイズの多いテキストに対する翻訳の堅牢性を改善するビジュアルコンテキストのアイデアを紹介します。
また,誤り訂正を補助タスクとして扱うことで,新しい誤り訂正訓練手法を提案する。
論文 参考訳(メタデータ) (2021-03-12T15:31:34Z) - How Context Affects Language Models' Factual Predictions [134.29166998377187]
検索システムからの情報を学習済みの言語モデルと純粋に教師なしの方法で統合する。
この方法で事前学習された言語モデルを拡張することで、性能が劇的に向上し、教師なしにもかかわらず、結果として得られるシステムは、教師なしの機械読解ベースラインと競合する、と報告する。
論文 参考訳(メタデータ) (2020-05-10T09:28:12Z) - Can Your Context-Aware MT System Pass the DiP Benchmark Tests? :
Evaluation Benchmarks for Discourse Phenomena in Machine Translation [7.993547048820065]
本稿では,4つの主要な談話現象の追跡と改善を目的としたMTベンチマークデータセットについて紹介する。
驚くべきことに、既存の文脈認識モデルでは、言語や現象間の会話関連翻訳が一貫して改善されない。
論文 参考訳(メタデータ) (2020-04-30T07:15:36Z) - Robust Unsupervised Neural Machine Translation with Adversarial
Denoising Training [66.39561682517741]
unsupervised neural machine translation (UNMT) は機械翻訳コミュニティに大きな関心を集めている。
UNMTの主な利点は、必要な大規模な訓練用テキストの簡単な収集にある。
本稿では,UNMT ベースのシステムのロバスト性を改善するため,まずノイズを考慮に入れた。
論文 参考訳(メタデータ) (2020-02-28T05:17:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。