論文の概要: "A Little is Enough": Few-Shot Quality Estimation based Corpus Filtering
improves Machine Translation
- arxiv url: http://arxiv.org/abs/2306.03507v1
- Date: Tue, 6 Jun 2023 08:53:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 16:36:24.145056
- Title: "A Little is Enough": Few-Shot Quality Estimation based Corpus Filtering
improves Machine Translation
- Title(参考訳): A little is Enough":Few-Shot Quality Estimation based Corpus Filtering による機械翻訳の改善
- Authors: Akshay Batheja, Pushpak Bhattacharyya
- Abstract要約: 疑似並列コーパスから高品質並列データを抽出するための品質推定に基づくフィルタリング手法を提案する。
我々は,英語・マラタイ語・中国語・ヒンディー語・ベンガル語対について,最大1.8BLEUポイントの機械翻訳(MT)システムの性能改善を観察した。
英語とマラソンのQEモデルから学習し,わずか500のヒンディー・ベンガル語訓練インスタンスを微調整し,ヒンディー・ベンガル語対に対する最大0.6BLEU点の改善を示した。
- 参考スコア(独自算出の注目度): 36.9886023078247
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Quality Estimation (QE) is the task of evaluating the quality of a
translation when reference translation is not available. The goal of QE aligns
with the task of corpus filtering, where we assign the quality score to the
sentence pairs present in the pseudo-parallel corpus. We propose a Quality
Estimation based Filtering approach to extract high-quality parallel data from
the pseudo-parallel corpus. To the best of our knowledge, this is a novel
adaptation of the QE framework to extract quality parallel corpus from the
pseudo-parallel corpus. By training with this filtered corpus, we observe an
improvement in the Machine Translation (MT) system's performance by up to 1.8
BLEU points, for English-Marathi, Chinese-English, and Hindi-Bengali language
pairs, over the baseline model. The baseline model is the one that is trained
on the whole pseudo-parallel corpus. Our Few-shot QE model transfer learned
from the English-Marathi QE model and fine-tuned on only 500 Hindi-Bengali
training instances, shows an improvement of up to 0.6 BLEU points for
Hindi-Bengali language pair, compared to the baseline model. This demonstrates
the promise of transfer learning in the setting under discussion. QE systems
typically require in the order of (7K-25K) of training data. Our Hindi-Bengali
QE is trained on only 500 instances of training that is 1/40th of the normal
requirement and achieves comparable performance. All the scripts and datasets
utilized in this study will be publicly available.
- Abstract(参考訳): 品質評価(QE)は、参照翻訳が利用できない場合に翻訳の品質を評価するタスクである。
QEの目標はコーパスフィルタリングのタスクと一致し、そこで擬並列コーパスに存在する文対に品質スコアを割り当てる。
疑似並列コーパスから高品質並列データを抽出するための品質推定に基づくフィルタリング手法を提案する。
私たちの知る限りでは、これは疑似並列コーパスから品質並列コーパスを抽出するためのqeフレームワークの新しい適応である。
このフィルタコーパスを用いて学習することにより,英語・マラタイ語・中国語・ヒンディー語・ベンガル語をベースラインモデルで最大1.8BLEU点の機械翻訳(MT)システムの性能向上を観察する。
ベースラインモデルは、擬似並列コーパス全体をトレーニングしたモデルである。
英語とマラソンのQEモデルから学習し,500のヒンディー・ベンガル語訓練インスタンスで微調整を行った結果,ヒンディー・ベンガル語対に対する最大0.6のBLEU点がベースラインモデルと比較された。
これは、議論中の環境での転校学習の約束を示しています。
QEシステムは通常、訓練データの順番(7K-25K)を必要とする。
当社のHindi-Bengali QEは、通常の要件の1/40のトレーニングインスタンスでトレーニングされており、同等のパフォーマンスを実現しています。
この研究で使用されるスクリプトとデータセットはすべて、公開される予定である。
関連論文リスト
- Don't Rank, Combine! Combining Machine Translation Hypotheses Using Quality Estimation [0.6998085564793366]
本研究は品質推定量(QE)を用いて翻訳を合成するQE融合を導入する。
提案手法は, 半数以上の症例において, 新規な翻訳を生成できることを実証する。
我々は、QE融合がプール内の候補数と線形にスケールすることを実証的に確立する。
論文 参考訳(メタデータ) (2024-01-12T16:52:41Z) - APE-then-QE: Correcting then Filtering Pseudo Parallel Corpora for MT
Training Data Creation [48.47548479232714]
本稿では,APEシステムを用いて機械翻訳訓練データのターゲット側の誤差を補正する修復フィルタ手法を提案する。
品質推定(QE)モデルを用いて計算した品質スコアに基づいて,原文と修正文のペアから文対を選択する。
基本モデルよりも英語・マラティー語・マラティー語における機械翻訳システムの性能を5.64点と9.91点に改善した。
論文 参考訳(メタデータ) (2023-12-18T16:06:18Z) - Bilingual Corpus Mining and Multistage Fine-Tuning for Improving Machine
Translation of Lecture Transcripts [50.00305136008848]
本研究では,並列コーパスマイニングのためのフレームワークを提案し,Coursera の公開講義から並列コーパスを迅速かつ効果的にマイニングする方法を提案する。
日英両国の講義翻訳において,約5万行の並列コーパスを抽出し,開発・テストセットを作成した。
また,コーパスの収集とクリーニング,並列文のマイニング,マイニングデータのクリーニング,高品質な評価スプリットの作成に関するガイドラインも提案した。
論文 参考訳(メタデータ) (2023-11-07T03:50:25Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - NAIST-SIC-Aligned: an Aligned English-Japanese Simultaneous Interpretation Corpus [23.49376007047965]
同時解釈(SI)データが同時機械翻訳(SiMT)に与える影響は依然として疑問である。
自動整列した英語と日本語のSIデータセットであるNAIST-SIC-Alignedを導入する。
その結果,SIデータでトレーニングしたモデルでは,ベースラインよりも翻訳品質とレイテンシが大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-04-23T23:03:58Z) - Original or Translated? On the Use of Parallel Data for Translation
Quality Estimation [81.27850245734015]
並列データと実QEデータの間には,大きなギャップがある。
並列データの場合、それは無差別であり、翻訳文はソースまたはターゲットサイドで発生する可能性がある。
パラレルコーパスのソース元部分の使用は、そのターゲット元よりも一貫して優れています。
論文 参考訳(メタデータ) (2022-12-20T14:06:45Z) - OneAligner: Zero-shot Cross-lingual Transfer with One Rich-Resource
Language Pair for Low-Resource Sentence Retrieval [91.76575626229824]
文検索タスク用に特別に設計されたアライメントモデルであるOneAlignerを提案する。
大規模並列多言語コーパス(OPUS-100)の全ての言語ペアで訓練すると、このモデルは最先端の結果が得られる。
実験結果から,文アライメントタスクの性能はモノリンガルおよび並列データサイズに大きく依存することがわかった。
論文 参考訳(メタデータ) (2022-05-17T19:52:42Z) - Ensemble-based Transfer Learning for Low-resource Machine Translation
Quality Estimation [1.7188280334580195]
第5回機械翻訳会議(WMT20)の文レベルQE共有タスクに焦点を当てます。
このようなQEデータ不足の課題を克服するために、トランスファーラーニングを備えたアンサンブルベースの予測器推定QEモデルを提案する。
個々の言語で事前学習されたモデルと異なるレベルの並列学習コーパスと、ピアソンの相関値0.298とを組み合わせたアンサンブルモデルにおいて、最も優れた性能を実現する。
論文 参考訳(メタデータ) (2021-05-17T06:02:17Z) - Parallel Corpus Filtering via Pre-trained Language Models [14.689457985200141]
Webcrawled Dataは、機械翻訳モデルをトレーニングするための並列コーパスの優れたソースを提供する。
最近の研究によると、ニューラルマシン翻訳システムは従来の統計機械翻訳法よりもノイズに敏感である。
本稿では,事前学習言語モデルを用いて,Webcrawled corporaからノイズの多い文ペアを抽出する手法を提案する。
論文 参考訳(メタデータ) (2020-05-13T06:06:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。