論文の概要: Unsupervised Word-level Quality Estimation for Machine Translation Through the Lens of Annotators (Dis)agreement
- arxiv url: http://arxiv.org/abs/2505.23183v1
- Date: Thu, 29 May 2025 07:20:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.734785
- Title: Unsupervised Word-level Quality Estimation for Machine Translation Through the Lens of Annotators (Dis)agreement
- Title(参考訳): アノテーションのレンズによる機械翻訳における教師なし単語レベルの品質評価(Dis)
- Authors: Gabriele Sarti, Vilém Zouhar, Malvina Nissim, Arianna Bisazza,
- Abstract要約: ワードレベルの品質推定(WQE)は、機械翻訳された出力におけるきめ細かいエラースパンを自動的に識別することを目的としている。
現代のWQE技術は高価であり、大規模な言語モデルや、大量の人間ラベル付きデータに対するアドホックな訓練を促進する。
- 参考スコア(独自算出の注目度): 19.427711407628024
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Word-level quality estimation (WQE) aims to automatically identify fine-grained error spans in machine-translated outputs and has found many uses, including assisting translators during post-editing. Modern WQE techniques are often expensive, involving prompting of large language models or ad-hoc training on large amounts of human-labeled data. In this work, we investigate efficient alternatives exploiting recent advances in language model interpretability and uncertainty quantification to identify translation errors from the inner workings of translation models. In our evaluation spanning 14 metrics across 12 translation directions, we quantify the impact of human label variation on metric performance by using multiple sets of human labels. Our results highlight the untapped potential of unsupervised metrics, the shortcomings of supervised methods when faced with label uncertainty, and the brittleness of single-annotator evaluation practices.
- Abstract(参考訳): ワードレベルの品質推定(WQE)は、機械翻訳された出力におけるきめ細かいエラースパンを自動的に識別することを目的としており、後編集中の翻訳者を支援するなど、多くの用途が発見されている。
現代のWQE技術は高価であり、大規模な言語モデルや、大量の人間ラベル付きデータに対するアドホックな訓練を促進する。
本研究では,翻訳モデルの内部動作から翻訳誤りを特定するために,言語モデルの解釈可能性と不確実性定量化の最近の進歩を活かした効率的な代替手法について検討する。
12の翻訳方向にまたがる14の指標に対する評価において、複数のラベルセットを用いて、人間のラベル変動がメートル法性能に与える影響を定量化する。
その結果,教師なしメトリクスの未解決の可能性,ラベルの不確実性に直面する場合の教師ありメソッドの欠点,単一アノテーション評価手法の脆弱さが浮き彫りになった。
関連論文リスト
- QE4PE: Word-level Quality Estimation for Human Post-Editing [17.17222014168155]
我々のQE4PE研究は、単語レベルのQEが機械翻訳後編集に与える影響を調査する。
教師付きおよび不確実性に基づく単語レベルQE手法を含む4つの誤りスパンハイライトモードを比較した。
強調表示の有効性を決定する上で,ドメイン,言語,編集者の速度が重要な要因であることがわかった。
論文 参考訳(メタデータ) (2025-03-04T22:50:17Z) - Alleviating Distribution Shift in Synthetic Data for Machine Translation Quality Estimation [55.73341401764367]
本稿では,合成QEデータの分散シフトを緩和する新しいフレームワークであるADSQEを紹介する。
ADSQEは、参照、すなわち翻訳監督信号を使用して、生成プロセスとアノテーションプロセスの両方をガイドする。
実験によると、ADSQEはCOMETのようなSOTAベースラインを教師なしと教師なしの両方で上回っている。
論文 参考訳(メタデータ) (2025-02-27T10:11:53Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - BLEU Meets COMET: Combining Lexical and Neural Metrics Towards Robust
Machine Translation Evaluation [12.407789866525079]
文レベルの特徴や単語レベルのタグなど,トレーニング中に追加情報を使用することで,トレーニングされた指標が,特定の問題のある現象で翻訳をペナルティ化する能力を向上させることを示す。
文レベルの特徴や単語レベルのタグなど,トレーニング中に追加情報を使用することで,トレーニングされた指標が,特定の問題のある現象で翻訳をペナルティ化する能力を向上させることを示す。
論文 参考訳(メタデータ) (2023-05-30T15:50:46Z) - Rethink about the Word-level Quality Estimation for Machine Translation
from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。
本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。
その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文 参考訳(メタデータ) (2022-09-13T02:37:12Z) - HOPE: A Task-Oriented and Human-Centric Evaluation Framework Using
Professional Post-Editing Towards More Effective MT Evaluation [0.0]
本研究では,機械翻訳出力のためのタスク指向・人間中心評価フレームワークHOPEを紹介する。
一般的に発生するエラーの種類は限られており、各翻訳ユニットにエラー重大度レベルを反映する誤差ペナルティポイント(EPP)の幾何学的進行を伴うスコアリングモデルを使用する。
このアプローチには、異なるシステムからの完全なMT出力を測定および比較する能力、品質に対する人間の認識を示す能力、MT出力を高品質にするために必要となる労力の即時見積、低コストで高速なアプリケーション、より高いIRRなど、いくつかの重要な利点がある。
論文 参考訳(メタデータ) (2021-12-27T18:47:43Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。