Fugu-MT 論文翻訳(概要): MQM-APE: Toward High-Quality Error Annotation Predictors with Automatic Post-Editing in LLM Translation Evaluators

論文の概要: MQM-APE: Toward High-Quality Error Annotation Predictors with Automatic Post-Editing in LLM Translation Evaluators

arxiv url: http://arxiv.org/abs/2409.14335v2
Date: Mon, 16 Dec 2024 08:08:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-17 15:49:58.87386
Title: MQM-APE: Toward High-Quality Error Annotation Predictors with Automatic Post-Editing in LLM Translation Evaluators
Title（参考訳）: MQM-APE:LLM翻訳評価器における自動後編集による高品質エラーアノテーション予測
Authors: Qingyu Lu, Liang Ding, Kanjian Zhang, Jinxia Zhang, Dacheng Tao,
Abstract要約: 大規模言語モデル(LLM)は、機械翻訳(MT)の品質評価の裁判官として大きな可能性を秘めている。非インパクト的なエラーをフィルタリングするアイデアに基づいて、ユニバーサルでトレーニング不要なフレームワークである$textbfMQM-APEを紹介します。実験の結果,GEMBA-MQMに対する誤差の信頼性と品質の両方が一貫して改善されていることがわかった。
参考スコア（独自算出の注目度）: 53.91199933655421
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Large Language Models (LLMs) have shown significant potential as judges for Machine Translation (MT) quality assessment, providing both scores and fine-grained feedback. Although approaches such as GEMBA-MQM have shown state-of-the-art performance on reference-free evaluation, the predicted errors do not align well with those annotated by human, limiting their interpretability as feedback signals. To enhance the quality of error annotations predicted by LLM evaluators, we introduce a universal and training-free framework, $\textbf{MQM-APE}$, based on the idea of filtering out non-impactful errors by Automatically Post-Editing (APE) the original translation based on each error, leaving only those errors that contribute to quality improvement. Specifically, we prompt the LLM to act as 1) $\textit{evaluator}$ to provide error annotations, 2) $\textit{post-editor}$ to determine whether errors impact quality improvement and 3) $\textit{pairwise quality verifier}$ as the error filter. Experiments show that our approach consistently improves both the reliability and quality of error spans against GEMBA-MQM, across eight LLMs in both high- and low-resource languages. Orthogonal to trained approaches, MQM-APE complements translation-specific evaluators such as Tower, highlighting its broad applicability. Further analysis confirms the effectiveness of each module and offers valuable insights into evaluator design and LLMs selection.
Abstract（参考訳）: 大規模言語モデル(LLM)は、機械翻訳(MT)の品質評価の裁判官として大きな可能性を示し、スコアときめ細かいフィードバックを提供する。 GEMBA-MQMのような手法は、参照なし評価において最先端のパフォーマンスを示すが、予測誤差は人間によって注釈付けされたものとうまく一致せず、フィードバック信号としての解釈可能性を制限する。 LLM評価器によって予測されるエラーアノテーションの品質を高めるために、各エラーに基づいて原文の翻訳を自動ポスト編集(APE)することで非インパクトエラーをフィルタリングし、品質改善に寄与するエラーのみを残すというアイデアに基づいて、普遍的でトレーニング不要なフレームワークである$\textbf{MQM-APE}$を導入する。具体的には LLM が機能するように促します 1) $\textit{evaluator}$ エラーアノテーションを提供する。 2) $\textit{post-editor}$ エラーが品質改善や品質改善に影響を及ぼすかどうかを決定する。 3) $\textit{pairwise quality verifier}$ as the error filter。 GEMBA-MQMに対する誤りの信頼性と品質は,高リソース言語と低リソース言語の両方において8つのLLMにわたって一貫して改善されている。 MQM-APEは、訓練されたアプローチと直交し、T Towerのような翻訳固有の評価器を補完し、その適用性を強調している。さらに,各モジュールの有効性を検証し,評価器の設計とLLMの選択に関する貴重な知見を提供する。

関連論文リスト

Beyond Scalar Scores: Reinforcement Learning for Error-Aware Quality Estimation of Machine Translation [10.050982803590903]
品質評価は、参照翻訳に頼ることなく、機械翻訳(MT)出力の品質を評価することを目的としている。重度リソース不足の言語ペアであるMalayalamに、英語のための最初のセグメントレベルQEデータセットを導入する。 ALOPE-RLは、効率的なアダプタを訓練するポリシーベースの強化学習フレームワークである。
論文参考訳（メタデータ） (2026-02-09T12:42:41Z)
HiMATE: A Hierarchical Multi-Agent Framework for Machine Translation Evaluation [38.67031685302134]
HiMATEは機械翻訳評価のための階層型マルチエージェントフレームワークである。 MQMエラー型に基づく階層型マルチエージェントシステムを構築し,サブタイプエラーの詳細な評価を可能にする。経験的に、HiMATEは、人間によるアライメント評価の実行において、さまざまなデータセット間の競争ベースラインよりも優れています。
論文参考訳（メタデータ） (2025-05-22T06:24:08Z)
Same evaluation, more tokens: On the effect of input length for machine translation evaluation using Large Language Models [6.525298236457623]
大規模言語モデル(LLM)は、MQMエラースパンアノテーションを介して、信頼性が高く解釈可能な文レベルの翻訳評価器として機能する。評価はテキスト長に不変であることを示し、入力の粒度に関わらず一貫した誤差スパンを生成する。我々は、粒度整合プロンプト、FSP(Focus Sentence Prompting)、LCMと評価タスクの整合性を改善するための微調整アプローチなど、いくつかの戦略を評価する。
論文参考訳（メタデータ） (2025-05-03T09:30:26Z)
When LLMs Struggle: Reference-less Translation Evaluation for Low-resource Languages [9.138590152838754]
セグメントレベルの品質評価(QE)は言語間理解の難しい課題である。ゼロ/フェーショットシナリオにおいて,大規模言語モデル (LLM) を包括的に評価する。この結果から,エンコーダを用いた微調整QEモデルでは,プロンプトベースアプローチの方が優れていたことが示唆された。
論文参考訳（メタデータ） (2025-01-08T12:54:05Z)
Guiding Large Language Models to Post-Edit Machine Translation with Error Annotations [14.149224539732913]
機械翻訳は、大規模言語モデル(LLM)がまだ専用の教師付きシステムに取って代わっていない最後のNLPタスクの1つである。この研究はLLMの補完的な強度を利用して、その品質に外部からのフィードバックを伴って、LMを自動で後続MTに誘導する。中国語・英語・ドイツ語・英語・ロシア語のMQMデータを用いた実験により,LLMのMT後処理によりTER,BLEU,COMETのスコアが向上することが実証された。微調整はきめ細かいフィードバックをより効果的に統合し、自動評価と人的評価の両方に基づいて翻訳品質を向上させる。
論文参考訳（メタデータ） (2024-04-11T15:47:10Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
Building Accurate Translation-Tailored LLMs with Language Aware Instruction Tuning [57.323716555996114]
オフターゲット翻訳は、特に低リソース言語では未解決の問題である。最近の研究は、翻訳命令の機能を強調するために高度なプロンプト戦略を設計するか、LLMの文脈内学習能力を活用している。本研究では,LLMの命令追従能力(特に翻訳方向)を向上させるために,2段階の微調整アルゴリズムを設計する。
論文参考訳（メタデータ） (2024-03-21T13:47:40Z)
TEaR: Improving LLM-based Machine Translation with Systematic Self-Refinement [26.26493253161022]
大規模言語モデル(LLM)は機械翻訳(MT)において印象的な結果を得た我々は,体系的LLMに基づく自己精製翻訳フレームワーク,textbfTEaRを紹介する。
論文参考訳（メタデータ） (2024-02-26T07:58:12Z)
Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。我々はLSMに答えを自己評価するように指示する。自己評価に基づくスコアリング手法をベンチマークする。
論文参考訳（メタデータ） (2023-12-14T19:09:22Z)
LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。 LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。 LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文参考訳（メタデータ） (2023-11-15T19:52:11Z)
xCOMET: Transparent Machine Translation Evaluation through Fine-grained Error Detection [21.116517555282314]
xCOMETは、機械翻訳評価アプローチのギャップを埋めるために設計されたオープンソースの学習メトリクスである。文レベルの評価とエラースパン検出機能を統合し、あらゆるタイプの評価で最先端のパフォーマンスを示す。また,ストレステストによるロバストネス解析を行い,xCOMETは局所的な臨界誤差や幻覚を同定できることを示す。
論文参考訳（メタデータ） (2023-10-16T15:03:14Z)
The Devil is in the Errors: Leveraging Large Language Models for Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。テキスト内学習と微調整によるラベル付きデータの影響について検討する。次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文参考訳（メタデータ） (2023-08-14T17:17:21Z)
Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models [57.80514758695275]
機械翻訳(MT)の品質を評価するために,大規模言語モデル(LLM)を用いることで,システムレベルでの最先端のパフォーマンスを実現する。我々はtextbftexttError Analysis Prompting (EAPrompt) と呼ばれる新しいプロンプト手法を提案する。本手法は,多次元品質指標 (MQM) とtextitproduces を用いて,システムレベルとセグメントレベルの両方で説明可能かつ信頼性の高いMT評価を行う。
論文参考訳（メタデータ） (2023-03-24T05:05:03Z)
Rethink about the Word-level Quality Estimation for Machine Translation from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文参考訳（メタデータ） (2022-09-13T02:37:12Z)
HOPE: A Task-Oriented and Human-Centric Evaluation Framework Using Professional Post-Editing Towards More Effective MT Evaluation [0.0]
本研究では,機械翻訳出力のためのタスク指向・人間中心評価フレームワークHOPEを紹介する。一般的に発生するエラーの種類は限られており、各翻訳ユニットにエラー重大度レベルを反映する誤差ペナルティポイント(EPP)の幾何学的進行を伴うスコアリングモデルを使用する。このアプローチには、異なるシステムからの完全なMT出力を測定および比較する能力、品質に対する人間の認識を示す能力、MT出力を高品質にするために必要となる労力の即時見積、低コストで高速なアプリケーション、より高いIRRなど、いくつかの重要な利点がある。
論文参考訳（メタデータ） (2021-12-27T18:47:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。