論文の概要: QUAK: A Synthetic Quality Estimation Dataset for Korean-English Neural
Machine Translation
- arxiv url: http://arxiv.org/abs/2209.15285v1
- Date: Fri, 30 Sep 2022 07:47:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 15:25:03.947416
- Title: QUAK: A Synthetic Quality Estimation Dataset for Korean-English Neural
Machine Translation
- Title(参考訳): QUIK:韓国英語ニューラルマシン翻訳のための合成品質推定データセット
- Authors: Sugyeong Eo, Chanjun Park, Hyeonseok Moon, Jaehyung Seo, Gyeongmin
Kim, Jungseob Lee, Heuiseok Lim
- Abstract要約: 品質推定(QE)は、参照文なしで機械翻訳(MT)出力の品質を自動的に予測することを目的としている。
実世界では高い実用性があるにもかかわらず、手動のQEデータ生成に関していくつかの制限がある。
韓国英語の合成QEデータセットであるQUIKを完全自動生成する。
- 参考スコア(独自算出の注目度): 5.381552585149967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the recent advance in neural machine translation demonstrating its
importance, research on quality estimation (QE) has been steadily progressing.
QE aims to automatically predict the quality of machine translation (MT) output
without reference sentences. Despite its high utility in the real world, there
remain several limitations concerning manual QE data creation: inevitably
incurred non-trivial costs due to the need for translation experts, and issues
with data scaling and language expansion. To tackle these limitations, we
present QUAK, a Korean-English synthetic QE dataset generated in a fully
automatic manner. This consists of three sub-QUAK datasets QUAK-M, QUAK-P, and
QUAK-H, produced through three strategies that are relatively free from
language constraints. Since each strategy requires no human effort, which
facilitates scalability, we scale our data up to 1.58M for QUAK-P, H and 6.58M
for QUAK-M. As an experiment, we quantitatively analyze word-level QE results
in various ways while performing statistical analysis. Moreover, we show that
datasets scaled in an efficient way also contribute to performance improvements
by observing meaningful performance gains in QUAK-M, P when adding data up to
1.58M.
- Abstract(参考訳): 近年のニューラルネットワーク翻訳の進歩により、品質推定(QE)の研究は着実に進んでいる。
QEは、参照文なしで機械翻訳(MT)出力の品質を自動的に予測することを目的としている。
実世界では高い実用性があるが、手動のqeデータ作成にはいくつかの制限がある: 必然的に翻訳の専門家の必要性による非自明なコストと、データスケーリングと言語拡張の問題である。
これらの制約に対処するため、韓国英語合成QEデータセットであるQUIKを完全自動生成する。
quak-m、quak-p、quak-hの3つのサブクアックデータセットで構成され、言語制約のない3つの戦略によって生成される。
各戦略は、スケーラビリティを促進する人的労力を必要としないため、quak-Pは1.58M、quak-MはH、6.58Mまでスケールする。
実験として,統計的分析を行いながら,単語レベルのQE結果を様々な方法で定量的に分析する。
さらに,1.58mまでのデータ追加時のquak-m,pの有意義な性能向上を観測することにより,効率的なスケールでデータセットもパフォーマンス向上に寄与することを示した。
関連論文リスト
- Importance-Aware Data Augmentation for Document-Level Neural Machine
Translation [51.74178767827934]
ドキュメントレベルのニューラルマシン翻訳(DocNMT)は、一貫性と結合性の両方を持つ翻訳を生成することを目的としている。
長い入力長とトレーニングデータの可用性が限られているため、DocNMTはデータスパシティーの課題に直面していることが多い。
本稿では,隠れ状態のノルムとトレーニング勾配から推定したトークン重要度情報に基づいてトレーニングデータを拡張するDocNMTのための新しいIADAアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-27T09:27:47Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - Tailoring Domain Adaptation for Machine Translation Quality Estimation [1.8780017602640042]
本稿では、堅牢なQEシステム内でのドメイン適応とデータ拡張を組み合わせる。
調査対象としたすべての言語ペアに対して,より優れた言語間推論,ゼロショット学習シナリオにおける優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-04-18T10:36:50Z) - PreQuEL: Quality Estimation of Machine Translation Outputs in Advance [32.922128367314194]
PreQuELシステムは、実際の翻訳とは無関係に、ある文がどの程度翻訳されるかを予測する。
タスクのベースラインモデルを開発し,その性能を解析する。
本手法は,品質評価タスクの性能向上にも有効であることを示す。
論文 参考訳(メタデータ) (2022-05-18T18:55:05Z) - Measuring Uncertainty in Translation Quality Evaluation (TQE) [62.997667081978825]
本研究は,翻訳テキストのサンプルサイズに応じて,信頼区間を精度良く推定する動機づけた研究を行う。
我々はベルヌーイ統計分布モデリング (BSDM) とモンテカルロサンプリング分析 (MCSA) の手法を適用した。
論文 参考訳(メタデータ) (2021-11-15T12:09:08Z) - A New Tool for Efficiently Generating Quality Estimation Datasets [1.1374578778690623]
品質推定(QE)トレーニングのためのデータ構築には費用がかかり、かなりの人的労力を要する。
単言語または並列コーパスのみを入力として受信することにより、QEデータセットを生成する完全自動擬似QEデータセット生成ツールを提案する。
論文 参考訳(メタデータ) (2021-11-01T08:37:30Z) - Ensemble-based Transfer Learning for Low-resource Machine Translation
Quality Estimation [1.7188280334580195]
第5回機械翻訳会議(WMT20)の文レベルQE共有タスクに焦点を当てます。
このようなQEデータ不足の課題を克服するために、トランスファーラーニングを備えたアンサンブルベースの予測器推定QEモデルを提案する。
個々の言語で事前学習されたモデルと異なるレベルの並列学習コーパスと、ピアソンの相関値0.298とを組み合わせたアンサンブルモデルにおいて、最も優れた性能を実現する。
論文 参考訳(メタデータ) (2021-05-17T06:02:17Z) - Unsupervised Quality Estimation for Neural Machine Translation [63.38918378182266]
既存のアプローチでは、大量の専門家アノテートデータ、計算、トレーニング時間が必要です。
MTシステム自体以外に、トレーニングや追加リソースへのアクセスが不要なQEに対して、教師なしのアプローチを考案する。
我々は品質の人間の判断と非常によく相関し、最先端の教師付きQEモデルと競合する。
論文 参考訳(メタデータ) (2020-05-21T12:38:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。