Fugu-MT 論文翻訳(概要): Hindsight Quality Prediction Experiments in Multi-Candidate Human-Post-Edited Machine Translation

論文の概要: Hindsight Quality Prediction Experiments in Multi-Candidate Human-Post-Edited Machine Translation

arxiv url: http://arxiv.org/abs/2603.04083v1
Date: Wed, 04 Mar 2026 13:54:58 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-05 21:29:15.331318
Title: Hindsight Quality Prediction Experiments in Multi-Candidate Human-Post-Edited Machine Translation
Title（参考訳）: 多言語人-ポスト編集機械翻訳における視線品質予測実験
Authors: Malik Marmonier, Benoît Sagot, Rachel Bawden,
Abstract要約: 本稿では,機械翻訳の品質予測のための2つの相補的パラダイムについて検討する。 MTへのLLM(Large Language Models)の急速な導入は、研究の状況を変えつつあるが、確立された品質予測パラダイムへの影響は、まだ未定である。
参考スコア（独自算出の注目度）: 23.7663178803576
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: This paper investigates two complementary paradigms for predicting machine translation (MT) quality: source-side difficulty prediction and candidate-side quality estimation (QE). The rapid adoption of Large Language Models (LLMs) into MT workflows is reshaping the research landscape, yet its impact on established quality prediction paradigms remains underexplored. We study this issue through a series of "hindsight" experiments on a unique, multi-candidate dataset resulting from a genuine MT post-editing (MTPE) project. The dataset consists of over 6,000 English source segments with nine translation hypotheses from a diverse set of traditional neural MT systems and advanced LLMs, all evaluated against a single, final human post-edited reference. Using Kendall's rank correlation, we assess the predictive power of source-side difficulty metrics, candidate-side QE models and position heuristics against two gold-standard scores: TER (as a proxy for post-editing effort) and COMET (as a proxy for human judgment). Our findings highlight that the architectural shift towards LLMs alters the reliability of established quality prediction methods while simultaneously mitigating previous challenges in document-level translation.
Abstract（参考訳）: 本稿では,機械翻訳の品質を予測するための2つの相補的パラダイム,すなわちソース側難易度予測と候補側品質推定(QE)について検討する。 MTワークフローへのLLM(Large Language Models)の急速な導入は、研究の状況を変えつつあるが、確立された品質予測パラダイムへの影響は、まだ未定である。我々は,MT後編集(MTPE)プロジェクトから得られた,ユニークな多候補データセットに関する一連の"隠れ"実験を通じてこの問題を研究する。このデータセットは6,000以上の英語のソースセグメントから構成されており、従来のMTシステムと高度なLCMの9つの翻訳仮説があり、いずれも単一の最終編集後の参照に対して評価されている。我々は、Kendallのランク相関を用いて、ソース側難易度指標、候補側QEモデル、位置ヒューリスティックスの予測力を、TER(後編集作業のプロキシ)とCOMET(人間の判断のプロキシ)の2つのゴールド標準スコアに対して評価する。文献翻訳における従来の課題を緩和しつつ, LLM へのアーキテクチャシフトが確立された品質予測手法の信頼性を損なうことが示唆された。

関連論文リスト

Beyond Literal Mapping: Benchmarking and Improving Non-Literal Translation Evaluation [57.11989521509119]
本稿では,特殊なサブエージェントを起動するリフレクティブコアエージェントを中心に,エージェント翻訳評価フレームワークを提案する。実験の結果、RATEの有効性が示され、現在の測定値と比較して少なくとも3.2メタスコアの改善が達成された。
論文参考訳（メタデータ） (2026-01-12T09:03:42Z)
Understanding and Addressing the Under-Translation Problem from the Perspective of Decoding Objective [72.83966378613238]
最新のニューラル・マシン・トランスレーション(NMT)システムでは、アンダー・トランスレーションとオーバー・トランスレーションの2つの課題が残っている。我々は,NMTにおけるアンダートランスレーションの根本原因を詳細に分析し,デコード目的の観点から解説する。本研究は,低翻訳の検知器としてEOS(End Of Sentence)予測の信頼性を活用し,低翻訳のリスクが高い候補を罰する信頼性に基づくペナルティを強化することを提案する。
論文参考訳（メタデータ） (2024-05-29T09:25:49Z)
Improving Machine Translation with Human Feedback: An Exploration of Quality Estimation as a Reward Model [75.66013048128302]
本研究では,QEモデルを報酬モデルとして活用し,フィードバックトレーニングにおける人間の嗜好を予測する可能性について検討する。まず,QEに基づくフィードバックトレーニングにおいて,翻訳品質が低下する中で,報酬の増大として現れる過度な最適化問題を同定した。問題に対処するために,ルールを用いて誤った翻訳を検知し,報酬のスコアにペナルティ項を割り当てる,シンプルで効果的な手法を採用する。
論文参考訳（メタデータ） (2024-01-23T16:07:43Z)
Unsupervised Translation Quality Estimation Exploiting Synthetic Data and Pre-trained Multilingual Encoder [17.431776840662273]
教師なし文レベルTQEにおける合成TQEデータと事前学習多言語エンコーダの有用性について検討した。 WMT20およびWMT21データセットに対する実験により、この手法は高解像度および低リソースの翻訳方向において、他の教師なしTQE手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2023-11-09T03:10:42Z)
The Devil is in the Errors: Leveraging Large Language Models for Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。テキスト内学習と微調整によるラベル付きデータの影響について検討する。次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文参考訳（メタデータ） (2023-08-14T17:17:21Z)
Perturbation-based QE: An Explainable, Unsupervised Word-level Quality Estimation Method for Blackbox Machine Translation [12.376309678270275]
摂動に基づくQEは、単に摂動入力元文上で出力されるMTシステムを分析することで機能する。我々のアプローチは、教師付きQEよりも、翻訳における性別バイアスや単語センスの曖昧さの誤りを検出するのに優れている。
論文参考訳（メタデータ） (2023-05-12T13:10:57Z)
Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models [57.80514758695275]
機械翻訳(MT)の品質を評価するために,大規模言語モデル(LLM)を用いることで,システムレベルでの最先端のパフォーマンスを実現する。我々はtextbftexttError Analysis Prompting (EAPrompt) と呼ばれる新しいプロンプト手法を提案する。本手法は,多次元品質指標 (MQM) とtextitproduces を用いて,システムレベルとセグメントレベルの両方で説明可能かつ信頼性の高いMT評価を行う。
論文参考訳（メタデータ） (2023-03-24T05:05:03Z)
HOPE: A Task-Oriented and Human-Centric Evaluation Framework Using Professional Post-Editing Towards More Effective MT Evaluation [0.0]
本研究では,機械翻訳出力のためのタスク指向・人間中心評価フレームワークHOPEを紹介する。一般的に発生するエラーの種類は限られており、各翻訳ユニットにエラー重大度レベルを反映する誤差ペナルティポイント(EPP)の幾何学的進行を伴うスコアリングモデルを使用する。このアプローチには、異なるシステムからの完全なMT出力を測定および比較する能力、品質に対する人間の認識を示す能力、MT出力を高品質にするために必要となる労力の即時見積、低コストで高速なアプリケーション、より高いIRRなど、いくつかの重要な利点がある。
論文参考訳（メタデータ） (2021-12-27T18:47:43Z)
Modelling Latent Translations for Cross-Lingual Transfer [47.61502999819699]
従来のパイプラインの2つのステップ(翻訳と分類)を1つのモデルに統合する新しい手法を提案する。我々は,多言語NLUタスクにおける新しい潜時翻訳モデルの評価を行った。ゼロショットと数ショットの学習設定の両方で、平均2.7の精度ポイントのゲインを報告します。
論文参考訳（メタデータ） (2021-07-23T17:11:27Z)
Verdi: Quality Estimation and Error Detection for Bilingual [23.485380293716272]
Verdiはバイリンガルコーパスのための単語レベルおよび文レベルの後編集作業推定のための新しいフレームワークである。バイリンガルコーパスの対称性を活用し,NMT予測器にモデルレベル二重学習を適用した。我々の手法は競争の勝者を圧倒し、他の基準法よりも大きなマージンで上回る。
論文参考訳（メタデータ） (2021-05-31T11:04:13Z)
Revisiting Round-Trip Translation for Quality Estimation [0.0]
品質評価(QE)とは、人間が翻訳した参照を使わずに翻訳の質を自動的に評価するタスクである。本稿では,RTTベースのQEにセマンティック埋め込みを適用する。提案手法は,従来のWMT 2019品質評価基準よりも,人間の判断と高い相関性が得られる。
論文参考訳（メタデータ） (2020-04-29T03:20:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。