論文の概要: AI-Assisted Human Evaluation of Machine Translation
- arxiv url: http://arxiv.org/abs/2406.12419v1
- Date: Tue, 18 Jun 2024 09:12:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 19:46:52.530134
- Title: AI-Assisted Human Evaluation of Machine Translation
- Title(参考訳): AIによる機械翻訳の人間による評価
- Authors: Vilém Zouhar, Tom Kocmi, Mrinmaya Sachan,
- Abstract要約: 我々の研究では、自動品質推定でスパンアノテーションをプリフィルすることでアノテーションを補助します。
AIアシストによって、アノテーションごとの時間を半分に削減しながら、より詳細なアノテーションが得られます。
- 参考スコア(独自算出の注目度): 51.07772996528965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Annually, research teams spend large amounts of money to evaluate the quality of machine translation systems (WMT, inter alia). This is expensive because it requires detailed human labor. The recently proposed annotation protocol, Error Span Annotation (ESA), has annotators marking erroneous parts of the translation. In our work, we help the annotators by pre-filling the span annotations with automatic quality estimation. With AI assistance, we obtain more detailed annotations while cutting down the time per span annotation by half (71s/error span $\rightarrow$ 31s/error span). The biggest advantage of ESA$^\mathrm{AI}$ protocol is an accurate priming of annotators (pre-filled error spans) before they assign the final score as opposed to starting from scratch. In addition, the annotation budget can be reduced by up to 24% with filtering of examples that the AI deems to be very likely to be correct.
- Abstract(参考訳): 毎年、研究チームは機械翻訳システム(WMT, inter alia)の品質を評価するために大量のお金を費やしています。
これは、詳細な人的労働を必要とするため、高価である。
最近提案されたアノテーションプロトコルであるError Span Annotation (ESA)には、翻訳の誤った部分をマークするアノテーションがある。
我々の研究では、自動品質推定でスパンアノテーションをプリフィルすることでアノテーションを補助します。
AIアシストでは、より詳細なアノテーションを取得し、スパンアノテーションあたりの時間を半分に削減します(71s/error span $\rightarrow $ 31s/error span)。
ESA$^\mathrm{AI}$プロトコルの最大の利点は、スクラッチから始めるのではなく、最終的なスコアを割り当てる前に、アノテータ(プリフィルされたエラースパン)の正確なプライミングである。
さらに、AIが正しいと判断する例をフィルタリングすることで、アノテーション予算を最大24%削減することができる。
関連論文リスト
- MQM-APE: Toward High-Quality Error Annotation Predictors with Automatic Post-Editing in LLM Translation Evaluators [53.91199933655421]
大規模言語モデル(LLM)は、機械翻訳(MT)の品質評価の裁判官として大きな可能性を秘めている。
LLM評価器によって予測されるエラーアノテーションの品質を高めるために,ユニバーサルでトレーニング不要なフレームワークである$textbfMQM-APEを導入する。
論文 参考訳(メタデータ) (2024-09-22T06:43:40Z) - Error Span Annotation: A Balanced Approach for Human Evaluation of Machine Translation [48.080874541824436]
Error Spanを紹介します。
ESA - DAの継続的な評価と高レベルの評価を組み合わせる人間評価プロトコル。
MQM のマーキングのエラー重大度。
ESAは、高価なMQM専門家の必要なしに、同じ品質レベルでMQMよりも高速で安価なアノテーションを提供する。
論文 参考訳(メタデータ) (2024-06-17T14:20:47Z) - SUT: Active Defects Probing for Transcompiler Models [24.01532199512389]
我々は、プログラミング言語翻訳のための新しいメトリクスを導入し、これらのメトリクスは基本的な構文エラーに対処する。
実験によると、ChatGPTのような強力なモデルでさえ、これらの基本的な単体テストで間違いを犯している。
論文 参考訳(メタデータ) (2023-10-22T07:16:02Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - The Best of Both Worlds: Combining Human and Machine Translations for
Multilingual Semantic Parsing with Active Learning [50.320178219081484]
人文翻訳と機械翻訳の両方の長所を生かした能動的学習手法を提案する。
理想的な発話選択は、翻訳されたデータの誤りとバイアスを著しく低減することができる。
論文 参考訳(メタデータ) (2023-05-22T05:57:47Z) - Rethink about the Word-level Quality Estimation for Machine Translation
from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。
本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。
その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文 参考訳(メタデータ) (2022-09-13T02:37:12Z) - Correct Me If You Can: Learning from Error Corrections and Markings [20.808561880051148]
本稿では、アノテーションのコストと機械学習性に関する最初のユーザスタディを、あまり一般的でないアノテーション方式のエラーマーキングに対して提示する。
我々は、TEDの英語からドイツ語への翻訳における誤りマーキングによって、正確なクレジットの割り当てが可能であり、修正や編集よりも人的労力が大幅に少ないことを示す。
論文 参考訳(メタデータ) (2020-04-23T15:17:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。