論文の概要: Error Analysis Prompting Enables Human-Like Translation Evaluation in
Large Language Models: A Case Study on ChatGPT
- arxiv url: http://arxiv.org/abs/2303.13809v2
- Date: Sun, 8 Oct 2023 12:50:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 14:06:48.676661
- Title: Error Analysis Prompting Enables Human-Like Translation Evaluation in
Large Language Models: A Case Study on ChatGPT
- Title(参考訳): 大規模言語モデルにおけるヒューマンライクな翻訳評価を可能にする誤り解析プロンプト:ChatGPTを事例として
- Authors: Qingyu Lu, Baopu Qiu, Liang Ding, Kanjian Zhang, Tom Kocmi, Dacheng
Tao
- Abstract要約: 機械翻訳の質を評価するためにChatGPTを使用すると、システムレベルでは最先端のパフォーマンスが得られるが、セグメントレベルでは性能が良くない。
本稿では,階層構造と誤り解析を組み合わせたEAPromptという新しいプロンプト手法を提案する。
以上の結果から,ChatGPTなどのLLMにエラー解析を施すことで,システムレベルとセグメントレベルの両方でヒューマンライクなMT評価が生成できることが示唆された。
- 参考スコア(独自算出の注目度): 61.25124893688374
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Generative large language models (LLMs), e.g., ChatGPT, have demonstrated
remarkable proficiency across several NLP tasks, such as machine translation,
text summarization. Recent research (Kocmi and Federmann, 2023) has shown that
utilizing ChatGPT for assessing the quality of machine translation (MT)
achieves state-of-the-art performance at the system level but performs poorly
at the segment level. To further improve the performance of LLMs on MT quality
assessment, we conduct an investigation into several prompting methods, and
propose a new prompting method called Error Analysis Prompting (EAPrompt) by
combining Chain-of-Thoughts (Wei et al., 2022) and Error Analysis (Lu et al.,
2022). Our results on WMT22 indicate that prompting LLMs like ChatGPT with
error analysis can generate human-like MT evaluations at both the system and
segment level. Additionally, we first discover some limitations of ChatGPT as
an MT evaluator, such as changing the order of input may significantly
influence the judgment when providing multiple translations in a single query.
This work provides a preliminary experience of prompting LLMs as an evaluator
to improve the reliability of translation evaluation metrics under the error
analysis paradigm.
- Abstract(参考訳): 生成型大規模言語モデル(LLM)、例えばChatGPTは、機械翻訳、テキスト要約など、いくつかのNLPタスクにおいて顕著な習熟性を示している。
最近の研究 (Kocmi and Federmann, 2023) では, 機械翻訳(MT)の品質評価にChatGPTを用いることで, システムレベルでの最先端性能が達成されるが, セグメントレベルでは性能が低下することが示されている。
mt品質評価におけるllmsの性能をさらに向上させるため,複数のプロンプト法を調査し,連鎖思考(wei et al., 2022)と誤り分析(lu et al., 2022)を組み合わせることにより,誤り分析促進法(eaprompt)と呼ばれる新しいプロンプト法を提案する。
WMT22の結果から,ChatGPTなどのLCMにエラー解析を施すことで,システムとセグメントレベルでの人為的なMT評価が実現できることがわかった。
さらに, MT評価器としてのChatGPTのいくつかの制限, 例えば入力順序の変更は, 単一のクエリで複数の翻訳を提供する際の判断に大きく影響する可能性がある。
本研究は, 誤り解析パラダイムに基づく翻訳評価指標の信頼性向上のため, LLMを評価対象として活用する予備的な経験を提供する。
関連論文リスト
- MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - The Eval4NLP 2023 Shared Task on Prompting Large Language Models as
Explainable Metrics [36.52897053496835]
生成型大規模言語モデル (LLM) は、タスクに関連する最小あるいは全くの例でタスクを解く顕著な能力を示している。
Eval4NLP 2023共有タスクを導入し、参加者に対して機械翻訳(MT)と要約評価のためのプロンプトとスコア抽出について検討する。
本稿では,参加者のアプローチの概要を述べるとともに,MTと要約データセットの3つの言語対にまたがる新しい参照なしテストセットについて評価する。
論文 参考訳(メタデータ) (2023-10-30T17:55:08Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Perturbation-based QE: An Explainable, Unsupervised Word-level Quality
Estimation Method for Blackbox Machine Translation [12.376309678270275]
摂動に基づくQEは、単に摂動入力元文上で出力されるMTシステムを分析することで機能する。
我々のアプローチは、教師付きQEよりも、翻訳における性別バイアスや単語センスの曖昧さの誤りを検出するのに優れている。
論文 参考訳(メタデータ) (2023-05-12T13:10:57Z) - Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。
本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文 参考訳(メタデータ) (2023-04-05T03:49:06Z) - Prompting PaLM for Translation: Assessing Strategies and Performance [16.73524055296411]
経路言語モデル (PaLM) は, 同様に訓練されたLLMの中で最強の機械翻訳(MT)性能を示した。
我々は、PaLMのMT機能に関する以前の評価を、より最近のテストセット、現代のMTメトリクス、そして人間の評価で再検討し、その性能は、印象的ではあるが、最先端の監視システムよりも遅れていることを発見した。
論文 参考訳(メタデータ) (2022-11-16T18:42:37Z) - HilMeMe: A Human-in-the-Loop Machine Translation Evaluation Metric
Looking into Multi-Word Expressions [6.85316573653194]
言語的に動機づけたHuman-in-the-loop評価尺度の設計と実装について,慣用的および用語的マルチワード表現(MWEs)について述べる。
MWEは、MWEを正確で意味のある等価な方法で認識・翻訳する能力を調べることで、異なるMTシステムを区別する主要な要因の1つである。
論文 参考訳(メタデータ) (2022-11-09T21:15:40Z) - Experts, Errors, and Context: A Large-Scale Study of Human Evaluation
for Machine Translation [19.116396693370422]
本稿では,多次元品質指標フレームワークに基づく明示的誤り分析に基づく評価手法を提案する。
我々はこれまでで最大のMQM研究を行い、WMT 2020の共通タスクから上位システムの出力を2つの言語ペアで評価した。
得られたデータを広範囲に分析し,wmtの群集作業員が確立したシステムとは,評価システムのランキングが実質的に異なる点を見出した。
論文 参考訳(メタデータ) (2021-04-29T16:42:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。