論文の概要: Can Automatic Post-Editing Improve NMT?
- arxiv url: http://arxiv.org/abs/2009.14395v1
- Date: Wed, 30 Sep 2020 02:34:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 23:26:49.746435
- Title: Can Automatic Post-Editing Improve NMT?
- Title(参考訳): 自動編集はNMTを改善するか?
- Authors: Shamil Chollampatt, Raymond Hendy Susanto, Liling Tan, Ewa Szymanska
- Abstract要約: 自動後編集(APE)は機械翻訳の改善を目的としており、それによって人間の後編集の労力を減らす。
APEは統計機械翻訳(SMT)システムで使用されているが、ニューラル機械翻訳(NMT)システムでは成功していない。
- 参考スコア(独自算出の注目度): 9.233407096706744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic post-editing (APE) aims to improve machine translations, thereby
reducing human post-editing effort. APE has had notable success when used with
statistical machine translation (SMT) systems but has not been as successful
over neural machine translation (NMT) systems. This has raised questions on the
relevance of APE task in the current scenario. However, the training of APE
models has been heavily reliant on large-scale artificial corpora combined with
only limited human post-edited data. We hypothesize that APE models have been
underperforming in improving NMT translations due to the lack of adequate
supervision. To ascertain our hypothesis, we compile a larger corpus of human
post-edits of English to German NMT. We empirically show that a state-of-art
neural APE model trained on this corpus can significantly improve a strong
in-domain NMT system, challenging the current understanding in the field. We
further investigate the effects of varying training data sizes, using
artificial training data, and domain specificity for the APE task. We release
this new corpus under CC BY-NC-SA 4.0 license at
https://github.com/shamilcm/pedra.
- Abstract(参考訳): 自動後編集(automatic post-editing, ape)は、機械翻訳を改善することを目的としている。
APEは統計機械翻訳(SMT)システムで使用されているが、ニューラル機械翻訳(NMT)システムでは成功していない。
これは現在のシナリオにおけるapタスクの関連性に関する疑問を提起している。
しかし、APEモデルのトレーニングは、大規模な人工コーパスと、限定された人事後データに大きく依存している。
APEモデルは, 適切な監督が欠如しているため, NMT翻訳の改善には不十分であると考えられる。
我々の仮説を確かめるために、我々は人間のポストエジットのより大きなコーパスをドイツのNMTにコンパイルする。
このコーパスで訓練された最先端のニューラル ape モデルが,領域内の強力なnmt システムを大幅に改善し,この分野の理解に挑戦できることを実証的に示す。
さらに, 各種トレーニングデータサイズ, 人工トレーニングデータ, APEタスクに対するドメイン特異性の影響について検討した。
我々はこの新しいコーパスをCC BY-NC-SA 4.0ライセンスでhttps://github.com/shamilcm/pedra.comでリリースする。
関連論文リスト
- Reducing Gender Bias in Machine Translation through Counterfactual Data
Generation [0.0]
訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳詞 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語 訳語
また,反実データ生成技術を用いて作成したドメイン内データを活用する新しいドメイン適応手法を提案する。
関連するコードはGithubで入手できる。
論文 参考訳(メタデータ) (2023-11-27T23:03:01Z) - Exploiting Language Relatedness in Machine Translation Through Domain
Adaptation Techniques [3.257358540764261]
文のスケール化類似度スコアを,特に5グラムのKenLM言語モデルに基づく関連言語に適用する手法を提案する。
提案手法は, マルチドメインアプローチでは2 BLEU点, NMTでは3 BLEU点, 反復的バックトランスレーションアプローチでは2 BLEU点の増加に成功している。
論文 参考訳(メタデータ) (2023-03-03T09:07:30Z) - An Empirical Study of Automatic Post-Editing [56.86393786396992]
APEは、機械翻訳出力のエラーを自動的に修正することで、手作業による後処理の労力を削減することを目的としている。
真のトレーニングデータの不足を軽減するため、現在のAPEシステムの多くは、大規模な人工コーパスを生成するためにデータ拡張手法を採用している。
本研究では,既存のAPEシステムにおける問題点を解析するために,難解なAPEデータセット上での最先端のAPEモデルの出力について検討する。
論文 参考訳(メタデータ) (2022-09-16T07:38:27Z) - Non-Parametric Online Learning from Human Feedback for Neural Machine
Translation [54.96594148572804]
本稿では,人間のフィードバックによるオンライン学習の課題について検討する。
従来手法では、高品質な性能を達成するために、オンラインモデル更新や翻訳メモリネットワークの追加が必要であった。
モデル構造を変更することなく、新しい非パラメトリックオンライン学習手法を提案する。
論文 参考訳(メタデータ) (2021-09-23T04:26:15Z) - Phrase-level Active Learning for Neural Machine Translation [107.28450614074002]
ドメイン内データの翻訳に所定の予算を費やすことのできる,アクティブな学習環境を提案する。
我々は、人間の翻訳者へのルーティングのために、新しいドメインの未ラベルデータから全文と個々の句を選択する。
ドイツ語と英語の翻訳タスクでは,不確実性に基づく文選択法に対して,能動的学習手法が一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-06-21T19:20:42Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Better Neural Machine Translation by Extracting Linguistic Information
from BERT [4.353029347463806]
ニューラルマシン翻訳(NMT)に言語情報を追加することは、主に事前訓練されたモデルからの点推定の使用に焦点を当てている。
我々は点推定の代わりにBERTから細調整ベクターベース言語情報を抽出することによりNMTを増強する。
論文 参考訳(メタデータ) (2021-04-07T00:03:51Z) - Norm-Based Curriculum Learning for Neural Machine Translation [45.37588885850862]
ニューラルネットワーク翻訳(NMT)システムは、特に高リソース設定でトレーニングに費用がかかる。
本稿では,NMTの学習効率を向上させるために,新しい規範に基づくカリキュラム学習手法を提案する。
提案手法はBLEUスコア(+1.17/+1.56)とトレーニングスピードアップ(2.22x/3.33x)で高いベースラインを達成できる。
論文 参考訳(メタデータ) (2020-06-03T02:22:00Z) - Neural Machine Translation: Challenges, Progress and Future [62.75523637241876]
機械翻訳(英: Machine translation, MT)は、コンピュータを利用して人間の言語を自動翻訳する技術である。
ニューラルマシン翻訳(NMT)は、ディープニューラルネットワークを用いたソース言語とターゲット言語間の直接マッピングをモデル化する。
この記事では、NMTフレームワークをレビューし、NMTの課題について論じ、最近のエキサイティングな進歩を紹介します。
論文 参考訳(メタデータ) (2020-04-13T07:53:57Z) - Self-Training for Unsupervised Neural Machine Translation in Unbalanced
Training Data Scenarios [61.88012735215636]
巨大な単言語コーパスのみに依存するunsupervised neural machine translation (UNMT)は、いくつかの翻訳タスクにおいて顕著な成果を上げている。
現実のシナリオでは、エストニア語のような極低リソース言語には巨大なモノリンガルコーパスは存在しない。
頑健なUNMTシステムの訓練と性能向上のためのUNMT自己学習機構を提案する。
論文 参考訳(メタデータ) (2020-04-09T12:07:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。