論文の概要: Large Language Models Are State-of-the-Art Evaluators of Translation
Quality
- arxiv url: http://arxiv.org/abs/2302.14520v1
- Date: Tue, 28 Feb 2023 12:23:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 16:44:40.662758
- Title: Large Language Models Are State-of-the-Art Evaluators of Translation
Quality
- Title(参考訳): 翻訳品質評価のための大規模言語モデル
- Authors: Tom Kocmi and Christian Federmann
- Abstract要約: 翻訳品質評価法は, GPT 3.5 以上のモデルでのみ有効であることを示す。
WMT22 Metrics共有タスク言語ペアのシステムレベルでは,この結果が有効である。
- 参考スコア(独自算出の注目度): 7.818228526742237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We describe GEMBA, a GPT-based metric for assessment of translation quality,
which works both with a reference translation and without. In our evaluation,
we focus on zero-shot prompting, comparing four prompt variants in two modes,
based on the availability of the reference. We investigate seven versions of
GPT models, including ChatGPT. We show that our method for translation quality
assessment only works with GPT 3.5 and larger models. Comparing to results from
WMT22's Metrics shared task, our method achieves state-of-the-art accuracy in
both modes when compared to MQM-based human labels. Our results are valid on
the system level for all three WMT22 Metrics shared task language pairs, namely
English into German, English into Russian, and Chinese into English. This
provides a first glimpse into the usefulness of pre-trained, generative large
language models for quality assessment of translations. We publicly release all
our code and prompt templates used for the experiments described in this work,
as well as all corresponding scoring results, to allow for external validation
and reproducibility.
- Abstract(参考訳): 我々はgembaについて述べる。gembaはgptベースの翻訳品質評価指標で、参照翻訳と無翻訳の両方で動作する。
本評価では,ゼロショットプロンプトに着目し,参照の可利用性に基づいて4つのプロンプトを2つのモードで比較する。
本稿では,ChatGPTを含む7種類のGPTモデルについて検討する。
翻訳品質評価法は, GPT 3.5 以上のモデルでのみ有効であることを示す。
WMT22のMetrics共有タスクの結果と比較して,本手法はMQMに基づく人間ラベルと比較して,両モードの最先端の精度を実現する。
WMT22Metricsの3つのタスク言語ペア、すなわち英語をドイツ語、英語をロシア語、中国語を英語に分けてシステムレベルで有効である。
これは、翻訳の品質評価のための事前学習された生成型大言語モデルの有用性を初めて垣間見ることができる。
当社は、この作業で記述された実験に使用されるすべてのコードとプロンプトテンプレート、および対応するスコア結果を公開して、外部の検証と再現性を実現しています。
関連論文リスト
- Machine Translation for Ge'ez Language [0.0]
Ge'ezのような低リソース言語の機械翻訳は、語彙外単語、ドメインミスマッチ、ラベル付きトレーニングデータの欠如といった課題に直面している。
言語関連性に基づく多言語ニューラルマシン翻訳(MNMT)モデルを開発した。
また,最新のLCMであるGPT-3.5を用いて,ファジィマッチングを用いた数ショット翻訳実験を行った。
論文 参考訳(メタデータ) (2023-11-24T14:55:23Z) - GEMBA-MQM: Detecting Translation Quality Error Spans with GPT-4 [20.13049408028925]
本稿では,翻訳品質の誤差を検出するためのGPTに基づく評価指標であるGEMBA-MQMを紹介する。
GEMBA-MQMは固定された3ショットプロンプト技術を採用し、GPT-4モデルをクエリしてエラー品質の幅を示す。
GEMBA-MQMはシステムランキングにおける最先端の精度を実現する。
論文 参考訳(メタデータ) (2023-10-21T12:30:33Z) - Evaluation Metrics in the Era of GPT-4: Reliably Evaluating Large
Language Models on Sequence to Sequence Tasks [9.801767683867125]
我々は,3つのNLPベンチマークの予備的およびハイブリッドな評価を,自動評価と人的評価の両方を用いて提供する。
ChatGPTは、ほとんどのメトリクスにおいて、人間のレビュアーによって、他の人気のあるモデルよりも一貫して優れています。
また、人間のレビュアーは、最高のモデルの出力よりも金の基準を格段に悪く評価し、多くの人気のあるベンチマークの品質が劣っていることを示している。
論文 参考訳(メタデータ) (2023-10-20T20:17:09Z) - Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。
本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文 参考訳(メタデータ) (2023-04-05T03:49:06Z) - How Good Are GPT Models at Machine Translation? A Comprehensive
Evaluation [16.90012234231392]
GPTモデルは高資源言語に対して非常に競争力のある翻訳品質を実現する。
また、GPTモデルと他の翻訳システムを組み合わせたハイブリッドアプローチにより、翻訳品質をさらに向上できることを示す。
論文 参考訳(メタデータ) (2023-02-18T02:11:36Z) - Alibaba-Translate China's Submission for WMT 2022 Quality Estimation
Shared Task [80.22825549235556]
我々は、UniTEという品質評価共有タスクにおいて、文レベルのMQMベンチマークを提出する。
具体的には、トレーニング中に3種類の入力形式と事前学習された言語モデルを組み合わせたUniTEのフレームワークを用いる。
その結果,我々のモデルは多言語・英語・ロシア語設定では第1位,英語・ドイツ語・中国語設定では第2位に達した。
論文 参考訳(メタデータ) (2022-10-18T08:55:27Z) - News Summarization and Evaluation in the Era of GPT-3 [73.48220043216087]
GPT-3は,大規模な要約データセット上で訓練された微調整モデルと比較する。
我々は,GPT-3サマリーが圧倒的に好まれるだけでなく,タスク記述のみを用いることで,現実性に乏しいようなデータセット固有の問題に悩まされることも示している。
論文 参考訳(メタデータ) (2022-09-26T01:04:52Z) - Elaboration-Generating Commonsense Question Answering at Scale [77.96137534751445]
一般的な感覚を必要とする質問応答では、言語モデル(例えばGPT-3)が背景知識を表すテキストを生成するために使われてきた。
より小さな言語モデルを微調整して有用な中間コンテキストを生成します。
私たちのフレームワークは、2つの言語モデルの更新 – 開発中のジェネレータと応答予測器 – を交互に行います。
論文 参考訳(メタデータ) (2022-09-02T18:32:09Z) - UniTE: Unified Translation Evaluation [63.58868113074476]
UniTEは3つの評価タスクをすべて処理する能力に携わる最初の統合フレームワークである。
We testify our framework on WMT 2019 Metrics and WMT 2020 Quality Estimation benchmarks。
論文 参考訳(メタデータ) (2022-04-28T08:35:26Z) - Learning to Evaluate Translation Beyond English: BLEURT Submissions to
the WMT Metrics 2020 Shared Task [30.889496911261677]
本稿では,WMT 2020 Metrics Shared Taskへのコントリビューションについて述べる。
我々は、移動学習に基づくメトリクスBLEURTに基づいていくつかの提案を行う。
BLEURTの予測とYiSiの予測を組み合わせ、代替参照変換を用いて性能を向上させる方法を示す。
論文 参考訳(メタデータ) (2020-10-08T23:16:26Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。