Fugu-MT 論文翻訳(概要): The Devil is in the Errors: Leveraging Large Language Models for Fine-grained Machine Translation Evaluation

論文の概要: The Devil is in the Errors: Leveraging Large Language Models for Fine-grained Machine Translation Evaluation

arxiv url: http://arxiv.org/abs/2308.07286v1
Date: Mon, 14 Aug 2023 17:17:21 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-15 12:19:45.462029
Title: The Devil is in the Errors: Leveraging Large Language Models for Fine-grained Machine Translation Evaluation
Title（参考訳）: the devil is in the error: きめ細かな機械翻訳の評価に大規模な言語モデルを活用する
Authors: Patrick Fernandes, Daniel Deutsch, Mara Finkelstein, Parker Riley, Andr\'e F. T. Martins, Graham Neubig, Ankush Garg, Jonathan H. Clark, Markus Freitag, Orhan Firat
Abstract要約: AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。テキスト内学習と微調整によるラベル付きデータの影響について検討する。次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
参考スコア（独自算出の注目度）: 93.01964988474755
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automatic evaluation of machine translation (MT) is a critical tool driving the rapid iterative development of MT systems. While considerable progress has been made on estimating a single scalar quality score, current metrics lack the informativeness of more detailed schemes that annotate individual errors, such as Multidimensional Quality Metrics (MQM). In this paper, we help fill this gap by proposing AutoMQM, a prompting technique which leverages the reasoning and in-context learning capabilities of large language models (LLMs) and asks them to identify and categorize errors in translations. We start by evaluating recent LLMs, such as PaLM and PaLM-2, through simple score prediction prompting, and we study the impact of labeled data through in-context learning and finetuning. We then evaluate AutoMQM with PaLM-2 models, and we find that it improves performance compared to just prompting for scores (with particularly large gains for larger models) while providing interpretability through error spans that align with human annotations.
Abstract（参考訳）: 機械翻訳(MT)の自動評価は,MTシステムの迅速な反復的開発を促進する重要なツールである。単一のスカラー品質スコアの推定にはかなりの進歩があったが、現在のメトリクスは、多次元品質メトリクス(MQM)のような個々のエラーを注釈付けするより詳細なスキームの情報を欠いている。本稿では,大規模言語モデル(llms)の推論と文脈内学習機能を活用し,翻訳におけるエラーの識別と分類を行うプロンプト手法であるautomqmを提案することで,このギャップを埋めることを支援する。まず,PALM や PaLM-2 などの最近の LLM の評価を,簡単なスコア予測による評価から始め,テキスト内学習と微調整によるラベル付きデータの影響について検討する。次に、PALM-2モデルでAutoMQMを評価し、単にスコアのプロンプト(特に大型モデルでは大きなゲイン)よりもパフォーマンスを向上し、ヒューマンアノテーションと整合したエラースパンによる解釈可能性を提供する。

関連論文リスト

When LLMs Struggle: Reference-less Translation Evaluation for Low-resource Languages [9.138590152838754]
セグメントレベルの品質評価(QE)は言語間理解の難しい課題である。ゼロ/フェーショットシナリオにおいて,大規模言語モデル (LLM) を包括的に評価する。この結果から,エンコーダを用いた微調整QEモデルでは,プロンプトベースアプローチの方が優れていたことが示唆された。
論文参考訳（メタデータ） (2025-01-08T12:54:05Z)
Are Large Language Models State-of-the-art Quality Estimators for Machine Translation of User-generated Content? [6.213698466889738]
本稿では,ユーザ生成コンテンツ(UGC)の機械翻訳において,大規模言語モデル(LLM)が最先端の品質評価手法であるかどうかを検討する。既存の感情関連データセットに人為的アノテートエラーを付加し,多次元品質指標に基づく品質評価スコアを算出した。
論文参考訳（メタデータ） (2024-10-08T20:16:59Z)
What do Large Language Models Need for Machine Translation Evaluation? [12.42394213466485]
大規模言語モデル(LLM)は、微調整された多言語事前訓練言語モデルに匹敵する結果が得られる。本稿では,LLMの機械翻訳品質を評価するために,ソース,参照,翻訳エラー,ガイドラインなどの翻訳情報が必要であるかを検討する。
論文参考訳（メタデータ） (2024-10-04T09:50:45Z)
MQM-APE: Toward High-Quality Error Annotation Predictors with Automatic Post-Editing in LLM Translation Evaluators [53.91199933655421]
大規模言語モデル(LLM)は、機械翻訳(MT)の品質評価の裁判官として大きな可能性を秘めている。 LLM評価器によって予測されるエラーアノテーションの品質を高めるために,ユニバーサルでトレーニング不要なフレームワークである$textbfMQM-APEを導入する。
論文参考訳（メタデータ） (2024-09-22T06:43:40Z)
Towards Zero-Shot Multimodal Machine Translation [64.9141931372384]
本稿では,マルチモーダル機械翻訳システムの学習において,完全教師付きデータの必要性を回避する手法を提案する。我々の手法はZeroMMTと呼ばれ、2つの目的の混合で学習することで、強いテキストのみの機械翻訳(MT)モデルを適応させることである。本手法が完全に教師付きトレーニングデータを持たない言語に一般化されることを証明するため,CoMMuTE評価データセットをアラビア語,ロシア語,中国語の3言語に拡張した。
論文参考訳（メタデータ） (2024-07-18T15:20:31Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
Multi-Dimensional Machine Translation Evaluation: Model Evaluation and Resource for Korean [7.843029855730508]
1200文のMQM評価ベンチマークを英語と韓国語で作成する。参照なしのセットアップはスタイルのディメンションにおいて、それよりも優れています。全体として、RemBERTは最も有望なモデルとして現れます。
論文参考訳（メタデータ） (2024-03-19T12:02:38Z)
TEaR: Improving LLM-based Machine Translation with Systematic Self-Refinement [26.26493253161022]
大規模言語モデル(LLM)は機械翻訳(MT)において印象的な結果を得た我々は,体系的LLMに基づく自己精製翻訳フレームワーク,textbfTEaRを紹介する。
論文参考訳（メタデータ） (2024-02-26T07:58:12Z)
QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。 QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文参考訳（メタデータ） (2023-11-06T00:21:44Z)
Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。 MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文参考訳（メタデータ） (2023-09-13T04:06:47Z)
Bring More Attention to Syntactic Symmetry for Automatic Postediting of High-Quality Machine Translations [4.217162744375792]
本稿では, APE モデルが対象言語に対する理解を深めることが期待される正規化の言語動機付け手法を提案する。実験結果から,提案手法は高品位MTにおける最先端アーキテクチャの APE 品質向上に有効であることが示された。
論文参考訳（メタデータ） (2023-05-17T20:25:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。