論文の概要: AI-Assisted Human Evaluation of Machine Translation
- arxiv url: http://arxiv.org/abs/2406.12419v2
- Date: Tue, 17 Sep 2024 14:18:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 21:51:13.796637
- Title: AI-Assisted Human Evaluation of Machine Translation
- Title(参考訳): AIによる機械翻訳の人間による評価
- Authors: Vilém Zouhar, Tom Kocmi, Mrinmaya Sachan,
- Abstract要約: 我々は、リコール指向の自動品質推定でエラーアノテーションをプリフィルすることでアノテータを支援する。
このAIアシストにより、アノテーションごとの時間を半分に減らしながら、同じ品質レベルでアノテーションを得ることができます。
- 参考スコア(独自算出の注目度): 51.07772996528965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Annually, research teams spend large amounts of money to evaluate the quality of machine translation systems (WMT, inter alia). This is expensive because it requires a lot of expert human labor. The recently adopted annotation protocol, Error Span Annotation (ESA), has annotators marking erroneous parts of the translation and then assigning a final score. A lot of the annotator time is spent on scanning the translation for possible errors. In our work, we help the annotators by pre-filling the error annotations with recall-oriented automatic quality estimation. With this AI assistance, we obtain annotations at the same quality level while cutting down the time per span annotation by half (71s/error span $\rightarrow$ 31s/error span). The biggest advantage of ESA$^\mathrm{AI}$ protocol is an accurate priming of annotators (pre-filled error spans) before they assign the final score. This also alleviates a potential automation bias, which we confirm to be low. In addition, the annotation budget can be reduced by almost 25\% with filtering of examples that the AI deems to be very likely to be correct.
- Abstract(参考訳): 毎年、研究チームは機械翻訳システム(WMT, inter alia)の品質を評価するために大量のお金を費やしています。
これは、多くの専門的な人的労働を必要とするため、高価です。
最近採用されたアノテーションプロトコルであるError Span Annotation (ESA)には、翻訳の誤った部分をマークし、最終的なスコアを割り当てるアノテーションがある。
アナテータの時間の多くは、可能なエラーのために翻訳をスキャンするのに費やされます。
本研究では,エラーアノテーションをリコール指向の自動品質推定でプリフィルすることで,アノテーションを補助する。
このAIアシストでは、同じ品質レベルでアノテーションを取得しながら、アノテーションごとの時間を半分に削減します(71s/error span $\rightarrow $ 31s/error span)。
ESA$^\mathrm{AI}$プロトコルの最大の利点は、最終的なスコアを割り当てる前にアノテータ(プリフィルされたエラースパン)の正確なプライミングである。
これにより、自動化バイアスが軽減され、低いことが確認できます。
さらに、AIが正しいと判断する例をフィルタリングすることで、アノテーション予算を約25%削減することができる。
関連論文リスト
- MQM-APE: Toward High-Quality Error Annotation Predictors with Automatic Post-Editing in LLM Translation Evaluators [53.91199933655421]
大規模言語モデル(LLM)は、機械翻訳(MT)の品質評価の裁判官として大きな可能性を秘めている。
LLM評価器によって予測されるエラーアノテーションの品質を高めるために,ユニバーサルでトレーニング不要なフレームワークである$textbfMQM-APEを導入する。
論文 参考訳(メタデータ) (2024-09-22T06:43:40Z) - Error Span Annotation: A Balanced Approach for Human Evaluation of Machine Translation [48.080874541824436]
Error Spanを紹介します。
ESA - DAの継続的な評価と高レベルの評価を組み合わせる人間評価プロトコル。
MQM のマーキングのエラー重大度。
ESAは、高価なMQM専門家の必要なしに、同じ品質レベルでMQMよりも高速で安価なアノテーションを提供する。
論文 参考訳(メタデータ) (2024-06-17T14:20:47Z) - SUT: Active Defects Probing for Transcompiler Models [24.01532199512389]
我々は、プログラミング言語翻訳のための新しいメトリクスを導入し、これらのメトリクスは基本的な構文エラーに対処する。
実験によると、ChatGPTのような強力なモデルでさえ、これらの基本的な単体テストで間違いを犯している。
論文 参考訳(メタデータ) (2023-10-22T07:16:02Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - The Best of Both Worlds: Combining Human and Machine Translations for
Multilingual Semantic Parsing with Active Learning [50.320178219081484]
人文翻訳と機械翻訳の両方の長所を生かした能動的学習手法を提案する。
理想的な発話選択は、翻訳されたデータの誤りとバイアスを著しく低減することができる。
論文 参考訳(メタデータ) (2023-05-22T05:57:47Z) - Rethink about the Word-level Quality Estimation for Machine Translation
from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。
本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。
その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文 参考訳(メタデータ) (2022-09-13T02:37:12Z) - Correct Me If You Can: Learning from Error Corrections and Markings [20.808561880051148]
本稿では、アノテーションのコストと機械学習性に関する最初のユーザスタディを、あまり一般的でないアノテーション方式のエラーマーキングに対して提示する。
我々は、TEDの英語からドイツ語への翻訳における誤りマーキングによって、正確なクレジットの割り当てが可能であり、修正や編集よりも人的労力が大幅に少ないことを示す。
論文 参考訳(メタデータ) (2020-04-23T15:17:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。