論文の概要: BitextEdit: Automatic Bitext Editing for Improved Low-Resource Machine
Translation
- arxiv url: http://arxiv.org/abs/2111.06787v1
- Date: Fri, 12 Nov 2021 16:00:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-15 16:01:06.993303
- Title: BitextEdit: Automatic Bitext Editing for Improved Low-Resource Machine
Translation
- Title(参考訳): BitextEdit: 低リソース機械翻訳の改善のための自動バイテキスト編集
- Authors: Eleftheria Briakou, Sida I. Wang, Luke Zettlemoyer, Marjan
Ghazvininejad
- Abstract要約: 自動編集によりマイニングしたビットクストを改良することを提案する。
提案手法は,5つの低リソース言語ペアと10の翻訳方向に対して,最大8個のBLEUポイントでCCMatrixマイニングビットクストの品質を向上することを示す。
- 参考スコア(独自算出の注目度): 53.55009917938002
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mined bitexts can contain imperfect translations that yield unreliable
training signals for Neural Machine Translation (NMT). While filtering such
pairs out is known to improve final model quality, we argue that it is
suboptimal in low-resource conditions where even mined data can be limited. In
our work, we propose instead, to refine the mined bitexts via automatic
editing: given a sentence in a language xf, and a possibly imperfect
translation of it xe, our model generates a revised version xf' or xe' that
yields a more equivalent translation pair (i.e., <xf, xe'> or <xf', xe>). We
use a simple editing strategy by (1) mining potentially imperfect translations
for each sentence in a given bitext, (2) learning a model to reconstruct the
original translations and translate, in a multi-task fashion. Experiments
demonstrate that our approach successfully improves the quality of CCMatrix
mined bitext for 5 low-resource language-pairs and 10 translation directions by
up to ~ 8 BLEU points, in most cases improving upon a competitive
back-translation baseline.
- Abstract(参考訳): マイニングビットは、ニューラルネットワーク翻訳(NMT)のための信頼性の低いトレーニング信号を生成する不完全な翻訳を含むことができる。
このようなペアをフィルタリングすることで最終的なモデル品質が向上することが知られているが、マイニングされたデータでさえ制限される低リソース環境では最適ではない。
言語xfの文と、それのおそらく不完全な翻訳が与えられた場合、我々のモデルは、より等価な翻訳ペア(すなわち、<xf, xe'>または<xf', xe>)を生成する修正版xf'またはxe'を生成する。
1) 与えられたバイテキストで各文に対して潜在的に不完全な翻訳をマイニングし, (2) 原文の翻訳を再構築し, マルチタスクで翻訳するモデルを学ぶ, 簡単な編集戦略を用いる。
実験により,5つの低リソース言語ペアと10の翻訳方向に対して,CCMatrixマイニングビットクストの品質を最大8 BLEUポイント向上させることに成功した。
関連論文リスト
- Advancing Translation Preference Modeling with RLHF: A Step Towards
Cost-Effective Solution [57.42593422091653]
人間のフィードバックによる強化学習の活用による翻訳品質の向上について検討する。
強力な言語能力を持つ報酬モデルは、翻訳品質の微妙な違いをより敏感に学習することができる。
論文 参考訳(メタデータ) (2024-02-18T09:51:49Z) - Can Synthetic Translations Improve Bitext Quality? [28.910206570036593]
この研究は、人工翻訳を用いて、採掘されたbitextにおける潜在的に不完全な参照翻訳を改訂する方法を探求する。
合成サンプルは、原文を置き換える際に、追加のバイリンガル・インシュアランスを使わずに、bitextの品質を向上させることができる。
論文 参考訳(メタデータ) (2022-03-15T04:36:29Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z) - Revisiting Context Choices for Context-aware Machine Translation [0.7741539072749042]
マルチソーストランスモデルでは,標準的なトランスモデルよりも機械翻訳が優れていることを示す。
また、ドメイン内コンテキストをランダムにシャッフルすることで、ベースラインを上回りながら、正しいコンテキストは翻訳品質をさらに向上させることができることを示す。
論文 参考訳(メタデータ) (2021-09-07T11:03:34Z) - Active Learning for Massively Parallel Translation of Constrained Text
into Low Resource Languages [26.822210580244885]
我々は、前もって知られ、多くの言語で利用可能なクローズドテキストを、新しく、非常に低いリソース言語に翻訳する。
テキストのコヒーレンスを局所的に最適化する部分ベースアプローチと,グローバルにテキストのカバレッジを増大させるランダムサンプリングアプローチを比較した。
本稿では,人間と機械がシームレスに連携して,閉じたテキストを極めて低リソースな言語に翻訳するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-16T14:49:50Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - Unsupervised Bitext Mining and Translation via Self-trained Contextual
Embeddings [51.47607125262885]
不整合テキストから機械翻訳(MT)のための擬似並列コーパスを作成するための教師なし手法について述べる。
我々は多言語BERTを用いて、最寄りの検索のためのソースとターゲット文の埋め込みを作成し、自己学習によりモデルを適応する。
BUCC 2017 bitextマイニングタスクで並列文ペアを抽出し,F1スコアの最大24.5ポイント増加(絶対)を従来の教師なし手法と比較して観察することで,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2020-10-15T14:04:03Z) - Incorporating Bilingual Dictionaries for Low Resource Semi-Supervised
Neural Machine Translation [5.958653653305609]
我々は、単語・バイ・ワードの翻訳によって合成文を生成する、広く利用可能なバイリンガル辞書を組み込んだ。
これにより、高品質なコンテンツを維持しながら、モデルの語彙を自動的に拡張する。
論文 参考訳(メタデータ) (2020-04-05T02:14:14Z) - Learning Contextualized Sentence Representations for Document-Level
Neural Machine Translation [59.191079800436114]
文書レベルの機械翻訳は、文間の依存関係をソース文の翻訳に組み込む。
本稿では,ニューラルマシン翻訳(NMT)を訓練し,文のターゲット翻訳と周辺文の双方を予測することによって,文間の依存関係をモデル化するフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-30T03:38:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。