論文の概要: Same evaluation, more tokens: On the effect of input length for machine translation evaluation using Large Language Models
- arxiv url: http://arxiv.org/abs/2505.01761v1
- Date: Sat, 03 May 2025 09:30:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.258889
- Title: Same evaluation, more tokens: On the effect of input length for machine translation evaluation using Large Language Models
- Title(参考訳): 同じ評価、より多くのトークン:大規模言語モデルを用いた機械翻訳評価における入力長の影響について
- Authors: Tobias Domhan, Dawei Zhu,
- Abstract要約: 大規模言語モデル(LLM)は、MQMエラースパンアノテーションを介して、信頼性が高く解釈可能な文レベルの翻訳評価器として機能する。
評価はテキスト長に不変であることを示し、入力の粒度に関わらず一貫した誤差スパンを生成する。
我々は、粒度整合プロンプト、FSP(Focus Sentence Prompting)、LCMと評価タスクの整合性を改善するための微調整アプローチなど、いくつかの戦略を評価する。
- 参考スコア(独自算出の注目度): 6.525298236457623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurately evaluating machine-translated text remains a long-standing challenge, particularly for long documents. Recent work has shown that large language models (LLMs) can serve as reliable and interpretable sentence-level translation evaluators via MQM error span annotations. With modern LLMs supporting larger context windows, a natural question arises: can we feed entire document translations into an LLM for quality assessment? Ideally, evaluation should be invariant to text length, producing consistent error spans regardless of input granularity. However, our analysis shows that text length significantly impacts evaluation: longer texts lead to fewer error spans and reduced system ranking accuracy. To address this limitation, we evaluate several strategies, including granularity-aligned prompting, Focus Sentence Prompting (FSP), and a fine-tuning approach to better align LLMs with the evaluation task. The latter two methods largely mitigate this length bias, making LLMs more reliable for long-form translation evaluation.
- Abstract(参考訳): 機械翻訳されたテキストを正確に評価することは、特に長い文書にとって、長年の課題である。
最近の研究によると、大言語モデル(LLM)はMQMエラースパンアノテーションを介して、信頼性が高く解釈可能な文レベルの翻訳評価を行うことができる。
より大規模なコンテキストウィンドウをサポートする現代のLLMでは、自然な疑問が生まれます。
理想的には、評価はテキスト長に不変であり、入力の粒度に関係なく一貫したエラースパンを生成するべきである。
しかし,本分析では,テキスト長が評価に大きく影響することを示し,長文はエラースパンを少なくし,システムランキングの精度を低下させる。
この制限に対処するために、粒度整合プロンプト、FSP(Focus Sentence Prompting)、LCMと評価タスクの整合性を改善するための微調整アプローチなど、いくつかの戦略を評価した。
後者の2つの方法は、この長さバイアスを軽減し、LLMを長文の翻訳評価に信頼性を高める。
関連論文リスト
- Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering [68.3400058037817]
本稿では,TREQA(Translation Evaluation via Question-Answering)について紹介する。
我々は,TREQAが最先端のニューラルネットワークとLLMベースのメトリクスより優れていることを示し,代用段落レベルの翻訳をランク付けする。
論文 参考訳(メタデータ) (2025-04-10T09:24:54Z) - What do Large Language Models Need for Machine Translation Evaluation? [12.42394213466485]
大規模言語モデル(LLM)は、微調整された多言語事前訓練言語モデルに匹敵する結果が得られる。
本稿では,LLMの機械翻訳品質を評価するために,ソース,参照,翻訳エラー,ガイドラインなどの翻訳情報が必要であるかを検討する。
論文 参考訳(メタデータ) (2024-10-04T09:50:45Z) - MQM-APE: Toward High-Quality Error Annotation Predictors with Automatic Post-Editing in LLM Translation Evaluators [53.91199933655421]
大規模言語モデル(LLM)は、機械翻訳(MT)の品質評価の裁判官として大きな可能性を秘めている。
非インパクト的なエラーをフィルタリングするアイデアに基づいて、ユニバーサルでトレーニング不要なフレームワークである$textbfMQM-APEを紹介します。
実験の結果,GEMBA-MQMに対する誤差の信頼性と品質の両方が一貫して改善されていることがわかった。
論文 参考訳(メタデータ) (2024-09-22T06:43:40Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - Large language models effectively leverage document-level context for
literary translation, but critical errors persist [32.54546652197316]
大規模言語モデル(LLM)は、幅広い文レベルの翻訳データセット上での最先端技術と競合する。
我々は,Gpt-3.5 (text-davinci-003) LLM) を用いて文節全体を翻訳し,高品質な翻訳を行うという厳密な評価を通して示す。
論文 参考訳(メタデータ) (2023-04-06T17:27:45Z) - Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models [57.80514758695275]
機械翻訳(MT)の品質を評価するために,大規模言語モデル(LLM)を用いることで,システムレベルでの最先端のパフォーマンスを実現する。
我々はtextbftexttError Analysis Prompting (EAPrompt) と呼ばれる新しいプロンプト手法を提案する。
本手法は,多次元品質指標 (MQM) とtextitproduces を用いて,システムレベルとセグメントレベルの両方で説明可能かつ信頼性の高いMT評価を行う。
論文 参考訳(メタデータ) (2023-03-24T05:05:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。