論文の概要: APE-then-QE: Correcting then Filtering Pseudo Parallel Corpora for MT
Training Data Creation
- arxiv url: http://arxiv.org/abs/2312.11312v1
- Date: Mon, 18 Dec 2023 16:06:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 19:31:32.038495
- Title: APE-then-QE: Correcting then Filtering Pseudo Parallel Corpora for MT
Training Data Creation
- Title(参考訳): ape-then-qe: mtトレーニングデータ作成のための疑似並列コーパスの修正
- Authors: Akshay Batheja, Sourabh Deoghare, Diptesh Kanojia, Pushpak
Bhattacharyya
- Abstract要約: 本稿では,APEシステムを用いて機械翻訳訓練データのターゲット側の誤差を補正する修復フィルタ手法を提案する。
品質推定(QE)モデルを用いて計算した品質スコアに基づいて,原文と修正文のペアから文対を選択する。
基本モデルよりも英語・マラティー語・マラティー語における機械翻訳システムの性能を5.64点と9.91点に改善した。
- 参考スコア(独自算出の注目度): 48.47548479232714
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automatic Post-Editing (APE) is the task of automatically identifying and
correcting errors in the Machine Translation (MT) outputs. We propose a
repair-filter-use methodology that uses an APE system to correct errors on the
target side of the MT training data. We select the sentence pairs from the
original and corrected sentence pairs based on the quality scores computed
using a Quality Estimation (QE) model. To the best of our knowledge, this is a
novel adaptation of APE and QE to extract quality parallel corpus from the
pseudo-parallel corpus. By training with this filtered corpus, we observe an
improvement in the Machine Translation system's performance by 5.64 and 9.91
BLEU points, for English-Marathi and Marathi-English, over the baseline model.
The baseline model is the one that is trained on the whole pseudo-parallel
corpus. Our work is not limited by the characteristics of English or Marathi
languages; and is language pair-agnostic, given the necessary QE and APE data.
- Abstract(参考訳): 自動後編集(automatic post-editing, ape)は、機械翻訳(mt)出力の誤りを自動的に識別し修正するタスクである。
MTトレーニングデータのターゲット側の誤差を補正するために, APE システムを用いた補修フィルタ利用手法を提案する。
品質推定(QE)モデルを用いて計算した品質スコアに基づいて,原文と修正文のペアから文対を選択する。
我々の知る限り、これは擬似並列コーパスから品質並列コーパスを抽出するための APE と QE の新たな適応である。
このフィルタ付きコーパスを用いて学習することにより,ベースラインモデルを用いて5.64点と9.91点の機械翻訳システムの性能向上を観察した。
ベースラインモデルは、擬似並列コーパス全体をトレーニングしたモデルである。
我々の研究は英語やマラティー語の特徴に制限されず、必要なQEデータやAPEデータから言語ペアに依存しない。
関連論文リスト
- LM-Combiner: A Contextual Rewriting Model for Chinese Grammatical Error Correction [49.0746090186582]
過剰補正は中国の文法的誤り訂正(CGEC)タスクにおいて重要な問題である。
モデルアンサンブル法による最近の研究は、過剰補正を効果的に軽減し、ECCシステムの精度を向上させることができる。
本稿では,GECシステム出力の過度補正をモデルアンサンブルなしで直接修正できる書き換えモデルLM-Combinerを提案する。
論文 参考訳(メタデータ) (2024-03-26T06:12:21Z) - There's no Data Like Better Data: Using QE Metrics for MT Data Filtering [25.17221095970304]
ニューラルネットワーク翻訳システム(NMT)のトレーニングデータにおいて、品質の悪い文対をフィルタリングするためにQEメトリクスを使用した場合の生存可能性について分析する。
トレーニングデータ中の高品質な文ペアを選択することで、トレーニングサイズを半分に減らしながら翻訳品質を向上させることができることを示す。
論文 参考訳(メタデータ) (2023-11-09T13:21:34Z) - Unify word-level and span-level tasks: NJUNLP's Participation for the
WMT2023 Quality Estimation Shared Task [59.46906545506715]
我々は、WMT 2023 Quality Estimation (QE)共有タスクにNJUNLPチームを紹介する。
私たちのチームは2つのサブタスクすべてで英語とドイツ語のペアの予測を提出しました。
我々のモデルは、単語レベルと細粒度エラースパン検出サブタスクの両方において、英語とドイツ語で最高の結果を得た。
論文 参考訳(メタデータ) (2023-09-23T01:52:14Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - "A Little is Enough": Few-Shot Quality Estimation based Corpus Filtering
improves Machine Translation [36.9886023078247]
疑似並列コーパスから高品質並列データを抽出するための品質推定に基づくフィルタリング手法を提案する。
我々は,英語・マラタイ語・中国語・ヒンディー語・ベンガル語対について,最大1.8BLEUポイントの機械翻訳(MT)システムの性能改善を観察した。
英語とマラソンのQEモデルから学習し,わずか500のヒンディー・ベンガル語訓練インスタンスを微調整し,ヒンディー・ベンガル語対に対する最大0.6BLEU点の改善を示した。
論文 参考訳(メタデータ) (2023-06-06T08:53:01Z) - Bring More Attention to Syntactic Symmetry for Automatic Postediting of
High-Quality Machine Translations [4.217162744375792]
本稿では, APE モデルが対象言語に対する理解を深めることが期待される正規化の言語動機付け手法を提案する。
実験結果から,提案手法は高品位MTにおける最先端アーキテクチャの APE 品質向上に有効であることが示された。
論文 参考訳(メタデータ) (2023-05-17T20:25:19Z) - Original or Translated? On the Use of Parallel Data for Translation
Quality Estimation [81.27850245734015]
並列データと実QEデータの間には,大きなギャップがある。
並列データの場合、それは無差別であり、翻訳文はソースまたはターゲットサイドで発生する可能性がある。
パラレルコーパスのソース元部分の使用は、そのターゲット元よりも一貫して優れています。
論文 参考訳(メタデータ) (2022-12-20T14:06:45Z) - Rethink about the Word-level Quality Estimation for Machine Translation
from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。
本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。
その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文 参考訳(メタデータ) (2022-09-13T02:37:12Z) - Cross-Lingual Named Entity Recognition Using Parallel Corpus: A New
Approach Using XLM-RoBERTa Alignment [5.747195707763152]
我々は、XLM-RoBERTa上にエンティティアライメントモデルを構築し、並列データの英語部分で検出されたエンティティを対象言語文に投影する。
翻訳方法とは異なり、このアプローチはターゲット言語のオリジナルコーパスの自然な流派性とニュアンスから利益を得ます。
提案手法をベンチマークデータセット上で4つのターゲット言語に対して評価し,最新のSOTAモデルと比較してF1スコアを得た。
論文 参考訳(メタデータ) (2021-01-26T22:19:52Z) - Parallel Corpus Filtering via Pre-trained Language Models [14.689457985200141]
Webcrawled Dataは、機械翻訳モデルをトレーニングするための並列コーパスの優れたソースを提供する。
最近の研究によると、ニューラルマシン翻訳システムは従来の統計機械翻訳法よりもノイズに敏感である。
本稿では,事前学習言語モデルを用いて,Webcrawled corporaからノイズの多い文ペアを抽出する手法を提案する。
論文 参考訳(メタデータ) (2020-05-13T06:06:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。