論文の概要: HOPE: A Task-Oriented and Human-Centric Evaluation Framework Using
Professional Post-Editing Towards More Effective MT Evaluation
- arxiv url: http://arxiv.org/abs/2112.13833v1
- Date: Mon, 27 Dec 2021 18:47:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-28 14:18:20.679953
- Title: HOPE: A Task-Oriented and Human-Centric Evaluation Framework Using
Professional Post-Editing Towards More Effective MT Evaluation
- Title(参考訳): HOPE:より効果的なMT評価に向けたプロフェッショナルポスト編集を用いたタスク指向・人間中心評価フレームワーク
- Authors: Serge Gladkoff, Lifeng Han
- Abstract要約: 本研究では,機械翻訳出力のためのタスク指向・人間中心評価フレームワークHOPEを紹介する。
一般的に発生するエラーの種類は限られており、各翻訳ユニットにエラー重大度レベルを反映する誤差ペナルティポイント(EPP)の幾何学的進行を伴うスコアリングモデルを使用する。
このアプローチには、異なるシステムからの完全なMT出力を測定および比較する能力、品質に対する人間の認識を示す能力、MT出力を高品質にするために必要となる労力の即時見積、低コストで高速なアプリケーション、より高いIRRなど、いくつかの重要な利点がある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Traditional automatic evaluation metrics for machine translation have been
widely criticized by linguists due to their low accuracy, lack of transparency,
focus on language mechanics rather than semantics, and low agreement with human
quality evaluation. Human evaluations in the form of MQM-like scorecards have
always been carried out in real industry setting by both clients and
translation service providers (TSPs). However, traditional human translation
quality evaluations are costly to perform and go into great linguistic detail,
raise issues as to inter-rater reliability (IRR) and are not designed to
measure quality of worse than premium quality translations. In this work, we
introduce HOPE, a task-oriented and human-centric evaluation framework for
machine translation output based on professional post-editing annotations. It
contains only a limited number of commonly occurring error types, and use a
scoring model with geometric progression of error penalty points (EPPs)
reflecting error severity level to each translation unit. The initial
experimental work carried out on English-Russian language pair MT outputs on
marketing content type of text from highly technical domain reveals that our
evaluation framework is quite effective in reflecting the MT output quality
regarding both overall system-level performance and segment-level transparency,
and it increases the IRR for error type interpretation. The approach has
several key advantages, such as ability to measure and compare less than
perfect MT output from different systems, ability to indicate human perception
of quality, immediate estimation of the labor effort required to bring MT
output to premium quality, low-cost and faster application, as well as higher
IRR. Our experimental data is available at
\url{https://github.com/lHan87/HOPE}.
- Abstract(参考訳): 機械翻訳の伝統的な自動評価指標は、言語学者によって、その正確さの低さ、透明性の欠如、意味論よりも言語力学の重視、人的品質評価との低一致により広く批判されている。
MQMライクなスコアカードの形式での人間による評価は、クライアントと翻訳サービスプロバイダ(TSP)の両方によって、常に実業界環境で行われてきた。
しかし、従来の人間の翻訳品質の評価は、高い言語的詳細度を保ち、レート間信頼性(irr)の問題を提起し、高級翻訳よりも悪い品質を測定するようには設計されていない。
本稿では,プロのポスト編集アノテーションに基づく機械翻訳出力のためのタスク指向・人間中心の評価フレームワークであるhopeを紹介する。
一般的に発生するエラータイプは限られており、各翻訳ユニットに対するエラー重大度レベルを反映したエラーペナルティポイント(epps)の幾何進行を伴うスコアリングモデルを使用する。
高い技術領域から得られたテキストのマーケティング内容タイプに関する英語とロシア語のペアMT出力に関する実験結果から,システムレベルの性能とセグメントレベルの透明性の両方に関して,MT出力品質を反映する上で,我々の評価フレームワークが極めて有効であることを明らかにした。
このアプローチには、異なるシステムからの完全なMT出力を測定および比較する能力、品質に対する人間の認識を示す能力、MT出力を高品質にするために必要となる労力の即時見積、低コストで高速なアプリケーション、より高いIRRなど、いくつかの重要な利点がある。
実験データは \url{https://github.com/lhan87/hope} で入手できます。
関連論文リスト
- MQM-APE: Toward High-Quality Error Annotation Predictors with Automatic Post-Editing in LLM Translation Evaluators [53.91199933655421]
大規模言語モデル(LLM)は、機械翻訳(MT)の品質評価の裁判官として大きな可能性を秘めている。
LLM評価器によって予測されるエラーアノテーションの品質を高めるために,ユニバーサルでトレーニング不要なフレームワークである$textbfMQM-APEを導入する。
論文 参考訳(メタデータ) (2024-09-22T06:43:40Z) - Error Span Annotation: A Balanced Approach for Human Evaluation of Machine Translation [48.080874541824436]
Error Spanを紹介します。
ESA - DAの継続的な評価と高レベルの評価を組み合わせる人間評価プロトコル。
MQM のマーキングのエラー重大度。
ESAは、高価なMQM専門家の必要なしに、同じ品質レベルでMQMよりも高速で安価なアノテーションを提供する。
論文 参考訳(メタデータ) (2024-06-17T14:20:47Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - Competency-Aware Neural Machine Translation: Can Machine Translation
Know its Own Translation Quality? [61.866103154161884]
ニューラルマシン翻訳(NMT)は、意識せずに起こる失敗に対してしばしば批判される。
本稿では,従来のNMTを自己推定器で拡張することで,新たな能力認識型NMTを提案する。
提案手法は品質評価において優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2022-11-25T02:39:41Z) - Rethink about the Word-level Quality Estimation for Machine Translation
from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。
本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。
その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文 参考訳(メタデータ) (2022-09-13T02:37:12Z) - Measuring Uncertainty in Translation Quality Evaluation (TQE) [62.997667081978825]
本研究は,翻訳テキストのサンプルサイズに応じて,信頼区間を精度良く推定する動機づけた研究を行う。
我々はベルヌーイ統計分布モデリング (BSDM) とモンテカルロサンプリング分析 (MCSA) の手法を適用した。
論文 参考訳(メタデータ) (2021-11-15T12:09:08Z) - BLEU, METEOR, BERTScore: Evaluation of Metrics Performance in Assessing
Critical Translation Errors in Sentiment-oriented Text [1.4213973379473654]
オンラインコンテンツの機械翻訳(MT)は、複数の言語で書かれた投稿の処理に一般的に使用される。
本稿では,機械翻訳の致命的誤りを検出するための自動品質指標の有効性を評価する。
我々は、感情クリティカルなエラーの検出をより堅牢にするために、自動メトリクスの微調整が必要であると結論付けている。
論文 参考訳(メタデータ) (2021-09-29T07:51:17Z) - Experts, Errors, and Context: A Large-Scale Study of Human Evaluation
for Machine Translation [19.116396693370422]
本稿では,多次元品質指標フレームワークに基づく明示的誤り分析に基づく評価手法を提案する。
我々はこれまでで最大のMQM研究を行い、WMT 2020の共通タスクから上位システムの出力を2つの言語ペアで評価した。
得られたデータを広範囲に分析し,wmtの群集作業員が確立したシステムとは,評価システムのランキングが実質的に異なる点を見出した。
論文 参考訳(メタデータ) (2021-04-29T16:42:09Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。