論文の概要: Error Analysis Prompting Enables Human-Like Translation Evaluation in
Large Language Models: A Case Study on ChatGPT
- arxiv url: http://arxiv.org/abs/2303.13809v1
- Date: Fri, 24 Mar 2023 05:05:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 15:35:29.697720
- Title: Error Analysis Prompting Enables Human-Like Translation Evaluation in
Large Language Models: A Case Study on ChatGPT
- Title(参考訳): 大規模言語モデルにおけるヒューマンライクな翻訳評価を可能にする誤り解析プロンプト:ChatGPTを事例として
- Authors: Qingyu Lu, Baopu Qiu, Liang Ding, Liping Xie, Dacheng Tao
- Abstract要約: 生成型大規模言語モデル(LLM)は、機械翻訳、質問応答、テキスト要約、自然言語理解など、いくつかのNLPタスクにおいて顕著な習熟性を示している。
近年の研究では、ChatGPTを用いて機械翻訳(MT)の性能をシステムレベルで評価しているが、セグメントレベルでは性能が劣っていることが示されている。
以上の結果から, tbftexttError Analysis Prompting と呼ばれる新しいプロンプト手法である ChatGPT のような LLM は, 人間のテキスト生成を可能にすることが示唆された。
- 参考スコア(独自算出の注目度): 79.95741403174893
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Generative large language models (LLMs), e.g., ChatGPT, have demonstrated
remarkable proficiency across several NLP tasks such as machine translation,
question answering, text summarization, and natural language understanding.
Recent research has shown that utilizing ChatGPT for assessing the quality of
machine translation (MT) achieves state-of-the-art performance at the system
level but performs poorly at the segment level. To further improve the
performance of LLMs on MT quality assessment, we conducted an investigation
into several prompting methods. Our results indicate that by combining
Chain-of-Thoughts and Error Analysis, a new prompting method called
\textbf{\texttt{Error Analysis Prompting}}, LLMs like ChatGPT can
\textit{generate human-like MT evaluations at both the system and segment
level}. Additionally, we discovered some limitations of ChatGPT as an MT
evaluator, such as unstable scoring and biases when provided with multiple
translations in a single query. Our findings aim to provide a preliminary
experience for appropriately evaluating translation quality on ChatGPT while
offering a variety of tricks in designing prompts for in-context learning. We
anticipate that this report will shed new light on advancing the field of
translation evaluation with LLMs by enhancing both the accuracy and reliability
of metrics. The project can be found in
\url{https://github.com/Coldmist-Lu/ErrorAnalysis_Prompt}.
- Abstract(参考訳): 生成型大規模言語モデル(LLM)、例えばChatGPTは、機械翻訳、質問応答、テキスト要約、自然言語理解など、いくつかのNLPタスクにおいて顕著な習熟性を示している。
近年の研究では,機械翻訳(MT)の品質評価にChatGPTを用いることで,システムレベルでの最先端性能が向上するが,セグメントレベルでは性能が低下することが示されている。
MT品質評価におけるLCMの性能向上を図るため,いくつかのプロンプト法の検討を行った。
その結果、連鎖的思考と誤り分析を組み合わせることで、chatgptのようなllmは、システムレベルとセグメントレベルの両方において、人間的mt評価を生成できるという新しいプロンプト法である \textbf{\texttt{error analysis prompting}} が得られた。
さらに, MT評価器としてのChatGPTの限界として, 不安定なスコアリングや1つのクエリで複数の翻訳が提供される場合のバイアスなどを見出した。
本研究の目的は,ChatGPTの翻訳品質を適切に評価する上で,テキスト内学習のためのプロンプトを設計する上で,様々なトリックを提供することである。
本報告は,メトリクスの精度と信頼性を両立させることで,LSMによる翻訳評価の分野を推し進めることに新たな光を当てることが期待できる。
このプロジェクトは \url{https://github.com/Coldmist-Lu/ErrorAnalysis_Prompt} で見ることができる。
関連論文リスト
- MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - The Eval4NLP 2023 Shared Task on Prompting Large Language Models as
Explainable Metrics [36.52897053496835]
生成型大規模言語モデル (LLM) は、タスクに関連する最小あるいは全くの例でタスクを解く顕著な能力を示している。
Eval4NLP 2023共有タスクを導入し、参加者に対して機械翻訳(MT)と要約評価のためのプロンプトとスコア抽出について検討する。
本稿では,参加者のアプローチの概要を述べるとともに,MTと要約データセットの3つの言語対にまたがる新しい参照なしテストセットについて評価する。
論文 参考訳(メタデータ) (2023-10-30T17:55:08Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Perturbation-based QE: An Explainable, Unsupervised Word-level Quality
Estimation Method for Blackbox Machine Translation [12.376309678270275]
摂動に基づくQEは、単に摂動入力元文上で出力されるMTシステムを分析することで機能する。
我々のアプローチは、教師付きQEよりも、翻訳における性別バイアスや単語センスの曖昧さの誤りを検出するのに優れている。
論文 参考訳(メタデータ) (2023-05-12T13:10:57Z) - Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。
本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文 参考訳(メタデータ) (2023-04-05T03:49:06Z) - Prompting PaLM for Translation: Assessing Strategies and Performance [16.73524055296411]
経路言語モデル (PaLM) は, 同様に訓練されたLLMの中で最強の機械翻訳(MT)性能を示した。
我々は、PaLMのMT機能に関する以前の評価を、より最近のテストセット、現代のMTメトリクス、そして人間の評価で再検討し、その性能は、印象的ではあるが、最先端の監視システムよりも遅れていることを発見した。
論文 参考訳(メタデータ) (2022-11-16T18:42:37Z) - HilMeMe: A Human-in-the-Loop Machine Translation Evaluation Metric
Looking into Multi-Word Expressions [6.85316573653194]
言語的に動機づけたHuman-in-the-loop評価尺度の設計と実装について,慣用的および用語的マルチワード表現(MWEs)について述べる。
MWEは、MWEを正確で意味のある等価な方法で認識・翻訳する能力を調べることで、異なるMTシステムを区別する主要な要因の1つである。
論文 参考訳(メタデータ) (2022-11-09T21:15:40Z) - Experts, Errors, and Context: A Large-Scale Study of Human Evaluation
for Machine Translation [19.116396693370422]
本稿では,多次元品質指標フレームワークに基づく明示的誤り分析に基づく評価手法を提案する。
我々はこれまでで最大のMQM研究を行い、WMT 2020の共通タスクから上位システムの出力を2つの言語ペアで評価した。
得られたデータを広範囲に分析し,wmtの群集作業員が確立したシステムとは,評価システムのランキングが実質的に異なる点を見出した。
論文 参考訳(メタデータ) (2021-04-29T16:42:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。