論文の概要: QE4PE: Word-level Quality Estimation for Human Post-Editing
- arxiv url: http://arxiv.org/abs/2503.03044v1
- Date: Tue, 04 Mar 2025 22:50:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:51:44.330352
- Title: QE4PE: Word-level Quality Estimation for Human Post-Editing
- Title(参考訳): QE4PE:人事後編集における単語レベルの品質評価
- Authors: Gabriele Sarti, Vilém Zouhar, Grzegorz Chrupała, Ana Guerberof-Arenas, Malvina Nissim, Arianna Bisazza,
- Abstract要約: 我々のQE4PE研究は、単語レベルのQEが機械翻訳後編集に与える影響を調査する。
教師付きおよび不確実性に基づく単語レベルQE手法を含む4つの誤りスパンハイライトモードを比較した。
強調表示の有効性を決定する上で,ドメイン,言語,編集者の速度が重要な要因であることがわかった。
- 参考スコア(独自算出の注目度): 17.17222014168155
- License:
- Abstract: Word-level quality estimation (QE) detects erroneous spans in machine translations, which can direct and facilitate human post-editing. While the accuracy of word-level QE systems has been assessed extensively, their usability and downstream influence on the speed, quality and editing choices of human post-editing remain understudied. Our QE4PE study investigates the impact of word-level QE on machine translation (MT) post-editing in a realistic setting involving 42 professional post-editors across two translation directions. We compare four error-span highlight modalities, including supervised and uncertainty-based word-level QE methods, for identifying potential errors in the outputs of a state-of-the-art neural MT model. Post-editing effort and productivity are estimated by behavioral logs, while quality improvements are assessed by word- and segment-level human annotation. We find that domain, language and editors' speed are critical factors in determining highlights' effectiveness, with modest differences between human-made and automated QE highlights underlining a gap between accuracy and usability in professional workflows.
- Abstract(参考訳): 単語レベルの品質推定(QE)は、機械翻訳における誤ったスパンを検出し、人間の後編集を指示し促進する。
単語レベルのQEシステムの精度は広く評価されているが、そのユーザビリティとダウンストリームが人間の後編集のスピード、品質、編集選択に影響を与えている。
QE4PEでは,単語レベルのQEが機械翻訳(MT)後編集に与える影響について検討した。
我々は、最先端のニューラルMTモデルの出力における潜在的なエラーを特定するために、教師付きおよび不確実性に基づく単語レベルQE法を含む4つのエラースパンハイライトモードを比較した。
編集後の労力と生産性は行動ログによって推定され、品質改善は単語とセグメントレベルの人間のアノテーションによって評価される。
ドメイン、言語、エディターのスピードはハイライトの有効性を決定する上で重要な要素であり、人造と自動化されたQEの微妙な違いは、プロのワークフローにおける正確性とユーザビリティのギャップを浮き彫りにしている。
関連論文リスト
- MQM-APE: Toward High-Quality Error Annotation Predictors with Automatic Post-Editing in LLM Translation Evaluators [53.91199933655421]
大規模言語モデル(LLM)は、機械翻訳(MT)の品質評価の裁判官として大きな可能性を秘めている。
非インパクト的なエラーをフィルタリングするアイデアに基づいて、ユニバーサルでトレーニング不要なフレームワークである$textbfMQM-APEを紹介します。
実験の結果,GEMBA-MQMに対する誤差の信頼性と品質の両方が一貫して改善されていることがわかった。
論文 参考訳(メタデータ) (2024-09-22T06:43:40Z) - Improving Machine Translation with Human Feedback: An Exploration of Quality Estimation as a Reward Model [75.66013048128302]
本研究では,QEモデルを報酬モデルとして活用し,フィードバックトレーニングにおける人間の嗜好を予測する可能性について検討する。
まず,QEに基づくフィードバックトレーニングにおいて,翻訳品質が低下する中で,報酬の増大として現れる過度な最適化問題を同定した。
問題に対処するために,ルールを用いて誤った翻訳を検知し,報酬のスコアにペナルティ項を割り当てる,シンプルで効果的な手法を採用する。
論文 参考訳(メタデータ) (2024-01-23T16:07:43Z) - Competency-Aware Neural Machine Translation: Can Machine Translation
Know its Own Translation Quality? [61.866103154161884]
ニューラルマシン翻訳(NMT)は、意識せずに起こる失敗に対してしばしば批判される。
本稿では,従来のNMTを自己推定器で拡張することで,新たな能力認識型NMTを提案する。
提案手法は品質評価において優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2022-11-25T02:39:41Z) - Rethink about the Word-level Quality Estimation for Machine Translation
from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。
本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。
その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文 参考訳(メタデータ) (2022-09-13T02:37:12Z) - Proficiency Matters Quality Estimation in Grammatical Error Correction [30.31557952622774]
本研究では, 文法的誤り訂正(GEC)の教師付き品質推定(QE)モデルが, 学習者の習熟度に与える影響について検討した。
論文 参考訳(メタデータ) (2022-01-17T03:47:19Z) - HOPE: A Task-Oriented and Human-Centric Evaluation Framework Using
Professional Post-Editing Towards More Effective MT Evaluation [0.0]
本研究では,機械翻訳出力のためのタスク指向・人間中心評価フレームワークHOPEを紹介する。
一般的に発生するエラーの種類は限られており、各翻訳ユニットにエラー重大度レベルを反映する誤差ペナルティポイント(EPP)の幾何学的進行を伴うスコアリングモデルを使用する。
このアプローチには、異なるシステムからの完全なMT出力を測定および比較する能力、品質に対する人間の認識を示す能力、MT出力を高品質にするために必要となる労力の即時見積、低コストで高速なアプリケーション、より高いIRRなど、いくつかの重要な利点がある。
論文 参考訳(メタデータ) (2021-12-27T18:47:43Z) - Measuring Uncertainty in Translation Quality Evaluation (TQE) [62.997667081978825]
本研究は,翻訳テキストのサンプルサイズに応じて,信頼区間を精度良く推定する動機づけた研究を行う。
我々はベルヌーイ統計分布モデリング (BSDM) とモンテカルロサンプリング分析 (MCSA) の手法を適用した。
論文 参考訳(メタデータ) (2021-11-15T12:09:08Z) - Pushing the Right Buttons: Adversarial Evaluation of Quality Estimation [25.325624543852086]
本稿では,機械翻訳(MT)システムにおける品質推定の逆検定法を提案する。
近年のSOTAによる人的判断と高い相関があるにもかかわらず、ある種の意味エラーはQEが検出する上で問題である。
第二に、平均的に、あるモデルが意味保存と意味調整の摂動を区別する能力は、その全体的な性能を予測できることが示される。
論文 参考訳(メタデータ) (2021-09-22T17:32:18Z) - Translation Error Detection as Rationale Extraction [36.616561917049076]
本稿では,現在最先端の文レベルQEモデルの振る舞いについて検討し,翻訳誤りを検出するために実際に説明が利用できることを示す。
単語レベルQEのための新しい半教師付き手法を導入し、(ii)特徴属性の妥当性を評価するための新しいベンチマークとしてQEタスクを提案する。
論文 参考訳(メタデータ) (2021-08-27T09:35:14Z) - Computer Assisted Translation with Neural Quality Estimation and
Automatic Post-Editing [18.192546537421673]
本稿では,機械翻訳出力の品質推定と自動編集のためのエンドツーエンドのディープラーニングフレームワークを提案する。
我々のゴールは、誤り訂正の提案を提供することであり、解釈可能なモデルにより、人間の翻訳者の負担を軽減することである。
論文 参考訳(メタデータ) (2020-09-19T00:29:00Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。