論文の概要: Large Language Models as Annotators for Machine Translation Quality Estimation
- arxiv url: http://arxiv.org/abs/2603.10775v1
- Date: Wed, 11 Mar 2026 13:50:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.972607
- Title: Large Language Models as Annotators for Machine Translation Quality Estimation
- Title(参考訳): 機械翻訳品質推定用アノテーションとしての大規模言語モデル
- Authors: Sidi Wang, Sophie Arnoult, Amir Kamran,
- Abstract要約: COMETモデルをトレーニングするためのMQMスタイルのアノテーションを生成するために,Large Language Modelsを適用することを提案する。
得られたアノテーションは人間のアノテーションとよく相関し,COMETをトレーニングすることで,中国語とドイツ語のセグメントレベルのQEの競争性能が向上することを示す。
- 参考スコア(独自算出の注目度): 0.04024586290381057
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated excellent performance on Machine Translation Quality Estimation (MTQE), yet their high inference costs make them impractical for direct application. In this work, we propose applying LLMs to generate MQM-style annotations for training a COMET model: following Fernandes et al. (2023), we reckon that segment-level annotations provide a strong rationale for LLMs and are key to good segment-level QE. We propose a simplified MQM scheme, mostly restricted to top-level categories, to guide LLM selection. We present a systematic approach for the development of a GPT-4o-based prompt, called PPbMQM (Prompt-Pattern-based-MQM). We show that the resulting annotations correlate well with human annotations and that training COMET on them leads to competitive performance on segment-level QE for Chinese-English and English-German.
- Abstract(参考訳): 大規模言語モデル (LLM) は機械翻訳品質推定 (MTQE) において優れた性能を示したが、その推論コストが高いため、直接適用には実用的ではない。
本稿では、COMETモデルをトレーニングするためのMQMスタイルアノテーションの生成にLLMを適用することを提案する: Fernandes et al (2023) に続いて、セグメントレベルのアノテーションはLSMに対して強力な論理的根拠を与え、優れたセグメントレベルのQEの鍵であると考えている。
LLM選択を導くための簡易なMQMスキームを提案する。
本稿では, GPT-4o ベースのプロンプト PPbMQM (Prompt-Pattern-based-MQM) の体系的手法を提案する。
得られたアノテーションは人間のアノテーションとよく相関し,COMETをトレーニングすることで,中国語とドイツ語のセグメントレベルのQEの競争性能が向上することを示す。
関連論文リスト
- Domain-Specific Quality Estimation for Machine Translation in Low-Resource Scenarios [10.17317882426833]
本研究は,4つの領域(医療,法,観光,一般)と5つの言語対にわたる英語とインデックスの機械翻訳における文レベルQEについて検討する。
クローズドウェイトモデルが単独で強力なパフォーマンスを達成する一方で、プロンプトのみのアプローチはオープンウェイトモデルには脆弱なままである。
論文 参考訳(メタデータ) (2026-03-07T22:55:25Z) - Beyond Scalar Scores: Reinforcement Learning for Error-Aware Quality Estimation of Machine Translation [10.050982803590903]
品質評価は、参照翻訳に頼ることなく、機械翻訳(MT)出力の品質を評価することを目的としている。
重度リソース不足の言語ペアであるMalayalamに、英語のための最初のセグメントレベルQEデータセットを導入する。
ALOPE-RLは、効率的なアダプタを訓練するポリシーベースの強化学習フレームワークである。
論文 参考訳(メタデータ) (2026-02-09T12:42:41Z) - JobResQA: A Benchmark for LLM Machine Reading Comprehension on Multilingual Résumés and JDs [3.83467384247581]
JobResQAは、HR固有のタスクで機械読み取り(MRC)機能を評価するためのベンチマークである。
データセットは、5つの言語で105のresumé-job記述ペアに対して511のQAペアで構成されている。
論文 参考訳(メタデータ) (2026-01-30T17:06:59Z) - When LLMs Struggle: Reference-less Translation Evaluation for Low-resource Languages [9.138590152838754]
セグメントレベルの品質評価(QE)は言語間理解の難しい課題である。
ゼロ/フェーショットシナリオにおいて,大規模言語モデル (LLM) を包括的に評価する。
この結果から,エンコーダを用いた微調整QEモデルでは,プロンプトベースアプローチの方が優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-01-08T12:54:05Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Pragmatic Competence Evaluation of Large Language Models for the Korean Language [0.6757476692230009]
本研究では,Large Language Models (LLMs) が,特に韓国語における実践的視点から,文脈依存表現をいかによく理解しているかを評価する。
自動評価にはMultiple-Choice Questions(MCQ)と、専門家によるOEQ(Open-Ended Questions)の両方を用いる。
論文 参考訳(メタデータ) (2024-03-19T12:21:20Z) - Regression-aware Inference with LLMs [52.764328080398805]
提案手法は,一般的な回帰と評価指標に準最適であることを示す。
本稿では,ベイズ最適解を推定し,サンプル応答からクローズド形式の評価指標を推定する代替推論手法を提案する。
論文 参考訳(メタデータ) (2024-03-07T03:24:34Z) - Speech Translation with Large Language Models: An Industrial Practice [64.5419534101104]
LLM-STは,事前学習型大言語モデル(LLM)に基づいて構築された,新規で効果的な音声翻訳モデルである。
大規模言語モデル(LLM)を音声エンコーダと統合し、マルチタスクの命令チューニングを利用することで、LLM-STは正確なタイムスタンプと翻訳を生成することができる。
英語と中国語のデータセットの厳密な実験を通じて,LLM-STの異常な性能を示す。
論文 参考訳(メタデータ) (2023-12-21T05:32:49Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。
我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。
ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文 参考訳(メタデータ) (2023-08-23T16:32:54Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。