論文の概要: MQM Re-Annotation: A Technique for Collaborative Evaluation of Machine Translation
- arxiv url: http://arxiv.org/abs/2510.24664v1
- Date: Tue, 28 Oct 2025 17:29:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.30733
- Title: MQM Re-Annotation: A Technique for Collaborative Evaluation of Machine Translation
- Title(参考訳): MQM re- Annotation: 機械翻訳の協調的評価手法
- Authors: Parker Riley, Daniel Deutsch, Mara Finkelstein, Colten DiIanni, Juraj Juraska, Markus Freitag,
- Abstract要約: 現在最先端翻訳評価パラダイム(MQM)の2段階版を実験した。
このセットアップでは、MQMアノテータが既存のMQMアノテーションのセットをレビューし、編集します。
我々は、再アノテーションにおけるレーダの振る舞いが私たちの目標と一致し、再アノテーションが高品質なアノテーションをもたらすことを示す。
- 参考スコア(独自算出の注目度): 22.41599031199308
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human evaluation of machine translation is in an arms race with translation model quality: as our models get better, our evaluation methods need to be improved to ensure that quality gains are not lost in evaluation noise. To this end, we experiment with a two-stage version of the current state-of-the-art translation evaluation paradigm (MQM), which we call MQM re-annotation. In this setup, an MQM annotator reviews and edits a set of pre-existing MQM annotations, that may have come from themselves, another human annotator, or an automatic MQM annotation system. We demonstrate that rater behavior in re-annotation aligns with our goals, and that re-annotation results in higher-quality annotations, mostly due to finding errors that were missed during the first pass.
- Abstract(参考訳): 機械翻訳の人間による評価は、翻訳モデルの品質が向上するにつれて、評価ノイズで品質向上が失われないように、我々の評価方法を改善する必要がある。
この目的のために、我々はMQM再アノテーションと呼ばれる現在の最先端翻訳評価パラダイム(MQM)の2段階バージョンを実験した。
このセットアップでは、MQMアノテータが既存のMQMアノテーションのセットをレビューし、編集します。
我々は、再アノテーションにおけるレーダの振る舞いが私たちの目標と一致し、再アノテーションが高品質なアノテーションをもたらすことを示す。
関連論文リスト
- HiMATE: A Hierarchical Multi-Agent Framework for Machine Translation Evaluation [39.7293877954587]
HiMATEは機械翻訳評価のための階層型マルチエージェントフレームワークである。
MQMエラー型に基づく階層型マルチエージェントシステムを構築し,サブタイプエラーの詳細な評価を可能にする。
経験的に、HiMATEは、人間によるアライメント評価の実行において、さまざまなデータセット間の競争ベースラインよりも優れています。
論文 参考訳(メタデータ) (2025-05-22T06:24:08Z) - MQM-APE: Toward High-Quality Error Annotation Predictors with Automatic Post-Editing in LLM Translation Evaluators [53.91199933655421]
大規模言語モデル(LLM)は、機械翻訳(MT)の品質評価の裁判官として大きな可能性を秘めている。
非インパクト的なエラーをフィルタリングするアイデアに基づいて、ユニバーサルでトレーニング不要なフレームワークである$textbfMQM-APEを紹介します。
実験の結果,GEMBA-MQMに対する誤差の信頼性と品質の両方が一貫して改善されていることがわかった。
論文 参考訳(メタデータ) (2024-09-22T06:43:40Z) - Error Span Annotation: A Balanced Approach for Human Evaluation of Machine Translation [48.080874541824436]
Error Spanを紹介します。
ESA - DAの継続的な評価と高レベルの評価を組み合わせる人間評価プロトコル。
MQM のマーキングのエラー重大度。
ESAは、高価なMQM専門家の必要なしに、同じ品質レベルでMQMよりも高速で安価なアノテーションを提供する。
論文 参考訳(メタデータ) (2024-06-17T14:20:47Z) - Multi-Dimensional Machine Translation Evaluation: Model Evaluation and Resource for Korean [7.843029855730508]
1200文のMQM評価ベンチマークを英語と韓国語で作成する。
参照なしのセットアップはスタイルのディメンションにおいて、それよりも優れています。
全体として、RemBERTは最も有望なモデルとして現れます。
論文 参考訳(メタデータ) (2024-03-19T12:02:38Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。