論文の概要: Learning Feature Weights using Reward Modeling for Denoising Parallel
Corpora
- arxiv url: http://arxiv.org/abs/2103.06968v1
- Date: Thu, 11 Mar 2021 21:45:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-15 13:26:47.541596
- Title: Learning Feature Weights using Reward Modeling for Denoising Parallel
Corpora
- Title(参考訳): 並列コーパス音化のための報酬モデルを用いた学習特徴量重み付け
- Authors: Gaurav Kumar, Philipp Koehn, Sanjeev Khudanpur
- Abstract要約: この研究は、複数の文レベルの特徴の重みを学習する代替アプローチを提示する。
この手法をエストニア語英語のパラクローリングコーパスを用いたニューラル機械翻訳(NMT)システムの構築に適用する。
本手法の異なる種類の雑音に対する感度を分析し,学習重み付けが他の言語対に一般化するかどうかを検討する。
- 参考スコア(独自算出の注目度): 36.292020779233056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large web-crawled corpora represent an excellent resource for improving the
performance of Neural Machine Translation (NMT) systems across several language
pairs. However, since these corpora are typically extremely noisy, their use is
fairly limited. Current approaches to dealing with this problem mainly focus on
filtering using heuristics or single features such as language model scores or
bi-lingual similarity. This work presents an alternative approach which learns
weights for multiple sentence-level features. These feature weights which are
optimized directly for the task of improving translation performance, are used
to score and filter sentences in the noisy corpora more effectively. We provide
results of applying this technique to building NMT systems using the Paracrawl
corpus for Estonian-English and show that it beats strong single feature
baselines and hand designed combinations. Additionally, we analyze the
sensitivity of this method to different types of noise and explore if the
learned weights generalize to other language pairs using the Maltese-English
Paracrawl corpus.
- Abstract(参考訳): 大規模なWebcrawled corporaは、複数の言語対にわたるニューラルマシン翻訳(NMT)システムの性能向上に優れたリソースである。
しかし、通常は極端に騒がしいため使用は限られている。
この問題に対処する現在のアプローチは、主にヒューリスティックスを使ったフィルタリング、言語モデルスコアやバイリンガル類似性のような単一機能に焦点を当てている。
この研究は、複数の文レベルの特徴の重みを学習する代替アプローチを提示する。
これらの特徴重みは翻訳性能を向上させるために直接最適化され、ノイズコーパスにおける文のスコア付けやフィルタリングをより効果的に行う。
エストニア語と英語のParacrawlコーパスを用いたNMTシステム構築にこの手法を適用した結果,強力な単一特徴量ベースラインと手作りの組み合わせに勝っていることを示す。
さらに,本手法の雑音に対する感度を解析し,学習重量がマルタ語と英語のパラクロールコーパスを用いて他の言語対に一般化されるかどうかを探索する。
関連論文リスト
- Low-Resource Machine Translation through the Lens of Personalized Federated Learning [26.436144338377755]
異種データを用いた自然言語処理に適用可能な新しい手法を提案する。
大規模多言語機械翻訳共有タスクのデータセットを用いて,低リソース機械翻訳タスク上で評価を行った。
MeritFedは、その効果に加えて、トレーニングに使用する各言語の影響を追跡するために適用できるため、高度に解釈可能である。
論文 参考訳(メタデータ) (2024-06-18T12:50:00Z) - Cross-Lingual Cross-Modal Retrieval with Noise-Robust Learning [25.230786853723203]
低リソース言語に対するノイズローバストな言語間クロスモーダル検索手法を提案する。
低リソース言語のための擬似並列文ペアを構築するために,機械翻訳を用いる。
ノイズロスのターゲット言語表現を学習するための多視点自己蒸留法を提案する。
論文 参考訳(メタデータ) (2022-08-26T09:32:24Z) - How Robust is Neural Machine Translation to Language Imbalance in
Multilingual Tokenizer Training? [86.48323488619629]
トークン化学習コーパスにおいて,言語間でのデータ比が変化するにつれて,翻訳性能がどう変化するかを分析する。
言語が均等にサンプリングされる場合、比較的優れたパフォーマンスが観察されることが多いが、下流のパフォーマンスは、通常予想していたよりも、言語の不均衡に対して堅牢である。
論文 参考訳(メタデータ) (2022-04-29T17:50:36Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Building Low-Resource NER Models Using Non-Speaker Annotation [58.78968578460793]
言語横断的な手法はこれらの懸念に対処する上で顕著な成功を収めた。
本稿では,Non-Speaker''(NS)アノテーションを用いた低リソース名前付きエンティティ認識(NER)モデル構築のための補完的アプローチを提案する。
NSアノテータの使用は、現代の文脈表現上に構築された言語間メソッドよりも、一貫した結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-17T03:24:38Z) - Parallel Corpus Filtering via Pre-trained Language Models [14.689457985200141]
Webcrawled Dataは、機械翻訳モデルをトレーニングするための並列コーパスの優れたソースを提供する。
最近の研究によると、ニューラルマシン翻訳システムは従来の統計機械翻訳法よりもノイズに敏感である。
本稿では,事前学習言語モデルを用いて,Webcrawled corporaからノイズの多い文ペアを抽出する手法を提案する。
論文 参考訳(メタデータ) (2020-05-13T06:06:23Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。