論文の概要: GEMBA-MQM: Detecting Translation Quality Error Spans with GPT-4
- arxiv url: http://arxiv.org/abs/2310.13988v1
- Date: Sat, 21 Oct 2023 12:30:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 04:07:07.857338
- Title: GEMBA-MQM: Detecting Translation Quality Error Spans with GPT-4
- Title(参考訳): GEMBA-MQM:GPT-4による翻訳誤差検出
- Authors: Tom Kocmi and Christian Federmann
- Abstract要約: 本稿では,翻訳品質の誤差を検出するためのGPTに基づく評価指標であるGEMBA-MQMを紹介する。
GEMBA-MQMは固定された3ショットプロンプト技術を採用し、GPT-4モデルをクエリしてエラー品質の幅を示す。
GEMBA-MQMはシステムランキングにおける最先端の精度を実現する。
- 参考スコア(独自算出の注目度): 20.13049408028925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces GEMBA-MQM, a GPT-based evaluation metric designed to
detect translation quality errors, specifically for the quality estimation
setting without the need for human reference translations. Based on the power
of large language models (LLM), GEMBA-MQM employs a fixed three-shot prompting
technique, querying the GPT-4 model to mark error quality spans. Compared to
previous works, our method has language-agnostic prompts, thus avoiding the
need for manual prompt preparation for new languages.
While preliminary results indicate that GEMBA-MQM achieves state-of-the-art
accuracy for system ranking, we advise caution when using it in academic works
to demonstrate improvements over other methods due to its dependence on the
proprietary, black-box GPT model.
- Abstract(参考訳): 本稿では,人間の参照翻訳を必要とせず,特に品質推定設定のために,翻訳品質エラーを検出するgptに基づく評価指標であるgemba-mqmについて述べる。
大きな言語モデル(LLM)のパワーに基づいて、GEMBA-MQMは固定された3ショットプロンプト技術を採用し、GPT-4モデルをクエリしてエラー品質の幅を示す。
従来の手法と比較して,本手法は言語に依存しないプロンプトを持つため,手動で新しい言語を準備する必要がなくなる。
予備的な結果は,GEMBA-MQMがシステムランキングの最先端の精度を実現していることを示しているが,学術研究で使用する場合,プロプライエタリなブラックボックスGPTモデルに依存しているため,他の手法よりも改善されていることを示すために注意が必要である。
関連論文リスト
- QE-EBM: Using Quality Estimators as Energy Loss for Machine Translation [5.10832476049103]
トレーニング可能な損失ネットワークとして品質推定器を用いるQE-EBMを提案する。
本稿では,ソース言語として英語を用いた低リソース・高リソースターゲット言語について検討する。
論文 参考訳(メタデータ) (2024-10-14T07:39:33Z) - MQM-APE: Toward High-Quality Error Annotation Predictors with Automatic Post-Editing in LLM Translation Evaluators [53.91199933655421]
大規模言語モデル(LLM)は、機械翻訳(MT)の品質評価の裁判官として大きな可能性を秘めている。
非インパクト的なエラーをフィルタリングするアイデアに基づいて、ユニバーサルでトレーニング不要なフレームワークである$textbfMQM-APEを紹介します。
実験の結果,GEMBA-MQMに対する誤差の信頼性と品質の両方が一貫して改善されていることがわかった。
論文 参考訳(メタデータ) (2024-09-22T06:43:40Z) - Error Span Annotation: A Balanced Approach for Human Evaluation of Machine Translation [48.080874541824436]
Error Spanを紹介します。
ESA - DAの継続的な評価と高レベルの評価を組み合わせる人間評価プロトコル。
MQM のマーキングのエラー重大度。
ESAは、高価なMQM専門家の必要なしに、同じ品質レベルでMQMよりも高速で安価なアノテーションを提供する。
論文 参考訳(メタデータ) (2024-06-17T14:20:47Z) - Multi-Dimensional Machine Translation Evaluation: Model Evaluation and Resource for Korean [7.843029855730508]
1200文のMQM評価ベンチマークを英語と韓国語で作成する。
参照なしのセットアップはスタイルのディメンションにおいて、それよりも優れています。
全体として、RemBERTは最も有望なモデルとして現れます。
論文 参考訳(メタデータ) (2024-03-19T12:02:38Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Evaluation Metrics in the Era of GPT-4: Reliably Evaluating Large
Language Models on Sequence to Sequence Tasks [9.801767683867125]
我々は,3つのNLPベンチマークの予備的およびハイブリッドな評価を,自動評価と人的評価の両方を用いて提供する。
ChatGPTは、ほとんどのメトリクスにおいて、人間のレビュアーによって、他の人気のあるモデルよりも一貫して優れています。
また、人間のレビュアーは、最高のモデルの出力よりも金の基準を格段に悪く評価し、多くの人気のあるベンチマークの品質が劣っていることを示している。
論文 参考訳(メタデータ) (2023-10-20T20:17:09Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - Analyzing the Performance of GPT-3.5 and GPT-4 in Grammatical Error
Correction [28.58384091374763]
GPT-3とGPT-4モデルは強力で、様々な自然言語処理タスクで高い性能を発揮する。
GPT-3.5 モデル (text-davinci-003) と GPT-4 モデル (gpt-4-0314) の機能を GEC ベンチマークで検証した。
BEA-2019およびJFLEGデータセットにおける最良プロンプトの性能について報告する。
論文 参考訳(メタデータ) (2023-03-25T03:08:49Z) - Large Language Models Are State-of-the-Art Evaluators of Translation
Quality [7.818228526742237]
GEMBAは、翻訳品質を評価するためのGPTベースのメトリクスである。
本稿では,ChatGPTとGPT-4を含む9種類のGPTモデルについて検討する。
本手法は, MQMに基づく人間ラベルと比較した場合, 両モードで最先端の精度を実現する。
論文 参考訳(メタデータ) (2023-02-28T12:23:48Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z) - Measuring Uncertainty in Translation Quality Evaluation (TQE) [62.997667081978825]
本研究は,翻訳テキストのサンプルサイズに応じて,信頼区間を精度良く推定する動機づけた研究を行う。
我々はベルヌーイ統計分布モデリング (BSDM) とモンテカルロサンプリング分析 (MCSA) の手法を適用した。
論文 参考訳(メタデータ) (2021-11-15T12:09:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。