論文の概要: Selecting Backtranslated Data from Multiple Sources for Improved Neural
Machine Translation
- arxiv url: http://arxiv.org/abs/2005.00308v1
- Date: Fri, 1 May 2020 10:50:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 23:47:06.191903
- Title: Selecting Backtranslated Data from Multiple Sources for Improved Neural
Machine Translation
- Title(参考訳): 改良ニューラルマシン翻訳のための複数ソースからの逆変換データの選択
- Authors: Xabier Soto, Dimitar Shterionov, Alberto Poncelas, Andy Way
- Abstract要約: 我々は、ルールベース、フレーズベース統計システム、ニューラルMTシステムで翻訳されたデータが、新しいMTシステムに与える影響を分析する。
我々は、高品質なMTシステムを維持しながら、使用するデータ量を減らすために、異なるデータ選択戦略を利用する。
- 参考スコア(独自算出の注目度): 8.554761233491236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine translation (MT) has benefited from using synthetic training data
originating from translating monolingual corpora, a technique known as
backtranslation. Combining backtranslated data from different sources has led
to better results than when using such data in isolation. In this work we
analyse the impact that data translated with rule-based, phrase-based
statistical and neural MT systems has on new MT systems. We use a real-world
low-resource use-case (Basque-to-Spanish in the clinical domain) as well as a
high-resource language pair (German-to-English) to test different scenarios
with backtranslation and employ data selection to optimise the synthetic
corpora. We exploit different data selection strategies in order to reduce the
amount of data used, while at the same time maintaining high-quality MT
systems. We further tune the data selection method by taking into account the
quality of the MT systems used for backtranslation and lexical diversity of the
resulting corpora. Our experiments show that incorporating backtranslated data
from different sources can be beneficial, and that availing of data selection
can yield improved performance.
- Abstract(参考訳): 機械翻訳(MT)は、モノリンガルコーパスの翻訳に由来する合成訓練データを使用することで恩恵を受けている。
異なるソースからの逆変換データを組み合わせることで、独立したデータを使用する場合よりも優れた結果が得られる。
本研究では,ルールベース,フレーズベース統計システム,ニューラルMTシステムが新しいMTシステムに与える影響を解析する。
実世界の低リソースのユースケース(臨床領域ではバスク語とスペイン語)と高リソースの言語ペア(ドイツ語と英語)を使用して、バックトランスレーションでさまざまなシナリオをテストし、データ選択を使用して合成コーパスを最適化します。
我々は,高品質なmtシステムを維持すると同時に,使用するデータ量を削減するために,異なるデータ選択戦略を利用する。
得られたコーパスの後方翻訳や語彙の多様性に使用されるMTシステムの品質を考慮したデータ選択法をさらに調整する。
実験の結果,異なるソースからの逆変換データを取り込むことは有益であり,データ選択による性能向上が期待できることがわかった。
関連論文リスト
- Evaluating Automatic Metrics with Incremental Machine Translation Systems [55.78547133890403]
商業機械翻訳からなるデータセットを導入し,12の翻訳方向から6年間にわたって収集した。
商業システムは時間とともに改善され、より最近の翻訳の好みに基づいて機械翻訳(MT)メトリクスを評価することができると仮定する。
論文 参考訳(メタデータ) (2024-07-03T17:04:17Z) - An approach for mistranslation removal from popular dataset for Indic MT
Task [5.4755933832880865]
トレーニングコーパスから誤訳を除去し,その性能と効率を評価するアルゴリズムを提案する。
実験には2つのIndic言語(IL)、すなわちHindi(HIN)とOdia(ODI)が選択される。
実験における翻訳の質は,BLEU, METEOR, RIBESなどの標準指標を用いて評価する。
論文 参考訳(メタデータ) (2024-01-12T06:37:19Z) - To Translate or Not to Translate: A Systematic Investigation of Translation-Based Cross-Lingual Transfer to Low-Resource Languages [0.0]
低リソース言語へのトランスファーのための,既存の翻訳に基づく新しいXLT手法の評価と提案を行う。
翻訳に基づくアプローチはすべて, mLM でゼロショット XLT を劇的に上回っていることを示す。
MTシステムでサポートされていない言語に対しても,効率的な翻訳ベースのXLT戦略を提案する。
論文 参考訳(メタデータ) (2023-11-15T22:03:28Z) - There's no Data Like Better Data: Using QE Metrics for MT Data Filtering [25.17221095970304]
ニューラルネットワーク翻訳システム(NMT)のトレーニングデータにおいて、品質の悪い文対をフィルタリングするためにQEメトリクスを使用した場合の生存可能性について分析する。
トレーニングデータ中の高品質な文ペアを選択することで、トレーニングサイズを半分に減らしながら翻訳品質を向上させることができることを示す。
論文 参考訳(メタデータ) (2023-11-09T13:21:34Z) - Textual Augmentation Techniques Applied to Low Resource Machine
Translation: Case of Swahili [1.9686054517684888]
機械翻訳において、世界中の言語ペアのほとんどは、ほとんど並列データがないため、低リソースと見なされている。
テキスト分類タスクで広く使われている3つの単純なデータ拡張手法を研究・適用する。
多様なデータセットでより広範な実験を行う場合には、これらの手法をニューラルネットワーク翻訳に使用する可能性がある。
論文 参考訳(メタデータ) (2023-06-12T20:43:24Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - Machine Translation Impact in E-commerce Multilingual Search [0.0]
言語間情報検索は機械翻訳の品質と高い相関関係を持つ。
クエリ翻訳の品質を改善することで、検索性能をさらに向上するメリットはほとんど、あるいは全く得られない、というしきい値が存在するかもしれない。
論文 参考訳(メタデータ) (2023-01-31T21:59:35Z) - Improving Simultaneous Machine Translation with Monolingual Data [94.1085601198393]
同時機械翻訳(SiMT)は通常、全文ニューラルネットワーク翻訳(NMT)モデルからシーケンスレベルの知識蒸留(Seq-KD)によって行われる。
本稿では,Sq-KD で蒸留した外部モノリンガルデータとバイリンガルデータを組み合わせて,SiMT の学生を訓練する SiMT の改善のためにモノリンガルデータを活用することを提案する。
論文 参考訳(メタデータ) (2022-12-02T14:13:53Z) - Towards Reinforcement Learning for Pivot-based Neural Machine
Translation with Non-autoregressive Transformer [49.897891031932545]
Pivot-based Neural Machine Translation (NMT) は、低リソースのセットアップで一般的に使用される。
我々は、ソースターゲットデータのトレーニングを可能にするエンドツーエンドのピボットベース統合モデルを提案する。
論文 参考訳(メタデータ) (2021-09-27T14:49:35Z) - On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-07T01:55:34Z) - Syntax-aware Data Augmentation for Neural Machine Translation [76.99198797021454]
本稿では,ニューラルマシン翻訳のための新しいデータ拡張戦略を提案する。
文中の役割を考慮し,単語選択のための文特異的確率を設定した。
提案手法はWMT14の英語-ドイツ語データセットとIWSLT14のドイツ語-英語データセットを用いて評価する。
論文 参考訳(メタデータ) (2020-04-29T13:45:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。