論文の概要: Rethink about the Word-level Quality Estimation for Machine Translation
from Human Judgement
- arxiv url: http://arxiv.org/abs/2209.05695v1
- Date: Tue, 13 Sep 2022 02:37:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-14 12:39:50.456804
- Title: Rethink about the Word-level Quality Estimation for Machine Translation
from Human Judgement
- Title(参考訳): 人間の判断による機械翻訳における単語レベルの品質評価の再考
- Authors: Zhen Yang, Fandong Meng, Yuanmeng Yan and Jie Zhou
- Abstract要約: ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。
本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。
その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
- 参考スコア(独自算出の注目度): 57.72846454929923
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Word-level Quality Estimation (QE) of Machine Translation (MT) aims to find
out potential translation errors in the translated sentence without reference.
Typically, conventional works on word-level QE are designed to predict the
translation quality in terms of the post-editing effort, where the word labels
("OK" and "BAD") are automatically generated by comparing words between MT
sentences and the post-edited sentences through a Translation Error Rate (TER)
toolkit. While the post-editing effort can be used to measure the translation
quality to some extent, we find it usually conflicts with the human judgement
on whether the word is well or poorly translated. To overcome the limitation,
we first create a golden benchmark dataset, namely \emph{HJQE} (Human Judgement
on Quality Estimation), where the expert translators directly annotate the
poorly translated words on their judgements. Additionally, to further make use
of the parallel corpus, we propose the self-supervised pre-training with two
tag correcting strategies, namely tag refinement strategy and tree-based
annotation strategy, to make the TER-based artificial QE corpus closer to
\emph{HJQE}. We conduct substantial experiments based on the publicly available
WMT En-De and En-Zh corpora. The results not only show our proposed dataset is
more consistent with human judgment but also confirm the effectiveness of the
proposed tag correcting strategies.\footnote{The data can be found at
\url{https://github.com/ZhenYangIACAS/HJQE}.}
- Abstract(参考訳): 機械翻訳(MT)の単語レベル品質推定(QE)は,翻訳文中の潜在的な翻訳誤りを参照なしで発見することを目的としている。
通常、単語レベルのQEに関する従来の研究は、単語ラベル(OKとBAD)を翻訳誤り率(TER)ツールキットでMT文と後編集文の単語の比較によって自動生成する、後編集作業の観点から翻訳品質を予測するように設計されている。
編集後の作業は翻訳の品質をある程度測定するために使われるが、単語がうまく翻訳されているか不十分かという人間の判断とは相容れない。
この制限を克服するために、我々はまず、ゴールデンベンチマークデータセット、すなわち品質推定の人間判断(英語版)を作成し、専門家翻訳者は、その判断について、翻訳の悪い単語に直接注釈をつける。
さらに,並列コーパスをさらに活用するために,タグリファインメント戦略とツリーベースのアノテーション戦略という2つのタグリファインメント戦略を用いた自己教師付き事前学習を提案し,terベースの人工qeコーパスを \emph{hjqe} に近づける。
利用可能なWMT En-De と En-Zh コーパスに基づく実測実験を行った。
その結果,提案するデータセットは,人間の判断と一貫性があるだけでなく,提案するタグ補正戦略の有効性も確認できた。
データは \url{https://github.com/zhenyangiacas/hjqe} にある。
}
関連論文リスト
- MQM-APE: Toward High-Quality Error Annotation Predictors with Automatic Post-Editing in LLM Translation Evaluators [53.91199933655421]
大規模言語モデル(LLM)は、機械翻訳(MT)の品質評価の裁判官として大きな可能性を秘めている。
LLM評価器によって予測されるエラーアノテーションの品質を高めるために,ユニバーサルでトレーニング不要なフレームワークである$textbfMQM-APEを導入する。
論文 参考訳(メタデータ) (2024-09-22T06:43:40Z) - A Data Selection Approach for Enhancing Low Resource Machine Translation Using Cross-Lingual Sentence Representations [0.4499833362998489]
本研究は,既存のデータセットが特に騒々しい英語-マラティー語対の事例に焦点を当てた。
データ品質問題の影響を軽減するために,言語間文表現に基づくデータフィルタリング手法を提案する。
その結果,IndicSBERTによるベースラインポストフィルタよりも翻訳品質が大幅に向上した。
論文 参考訳(メタデータ) (2024-09-04T13:49:45Z) - Understanding and Addressing the Under-Translation Problem from the Perspective of Decoding Objective [72.83966378613238]
最新のニューラル・マシン・トランスレーション(NMT)システムでは、アンダー・トランスレーションとオーバー・トランスレーションの2つの課題が残っている。
我々は,NMTにおけるアンダートランスレーションの根本原因を詳細に分析し,デコード目的の観点から解説する。
本研究は,低翻訳の検知器としてEOS(End Of Sentence)予測の信頼性を活用し,低翻訳のリスクが高い候補を罰する信頼性に基づくペナルティを強化することを提案する。
論文 参考訳(メタデータ) (2024-05-29T09:25:49Z) - Unify word-level and span-level tasks: NJUNLP's Participation for the
WMT2023 Quality Estimation Shared Task [59.46906545506715]
我々は、WMT 2023 Quality Estimation (QE)共有タスクにNJUNLPチームを紹介する。
私たちのチームは2つのサブタスクすべてで英語とドイツ語のペアの予測を提出しました。
我々のモデルは、単語レベルと細粒度エラースパン検出サブタスクの両方において、英語とドイツ語で最高の結果を得た。
論文 参考訳(メタデータ) (2023-09-23T01:52:14Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - Competency-Aware Neural Machine Translation: Can Machine Translation
Know its Own Translation Quality? [61.866103154161884]
ニューラルマシン翻訳(NMT)は、意識せずに起こる失敗に対してしばしば批判される。
本稿では,従来のNMTを自己推定器で拡張することで,新たな能力認識型NMTを提案する。
提案手法は品質評価において優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2022-11-25T02:39:41Z) - Mismatching-Aware Unsupervised Translation Quality Estimation For
Low-Resource Languages [6.049660810617423]
XLMRScoreは、XLM-RoBERTa (XLMR)モデルで計算されたBERTScoreの言語間対応である。
WMT21QE共有タスクの4つの低リソース言語対に対して提案手法を評価する。
論文 参考訳(メタデータ) (2022-07-31T16:23:23Z) - HOPE: A Task-Oriented and Human-Centric Evaluation Framework Using
Professional Post-Editing Towards More Effective MT Evaluation [0.0]
本研究では,機械翻訳出力のためのタスク指向・人間中心評価フレームワークHOPEを紹介する。
一般的に発生するエラーの種類は限られており、各翻訳ユニットにエラー重大度レベルを反映する誤差ペナルティポイント(EPP)の幾何学的進行を伴うスコアリングモデルを使用する。
このアプローチには、異なるシステムからの完全なMT出力を測定および比較する能力、品質に対する人間の認識を示す能力、MT出力を高品質にするために必要となる労力の即時見積、低コストで高速なアプリケーション、より高いIRRなど、いくつかの重要な利点がある。
論文 参考訳(メタデータ) (2021-12-27T18:47:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。