論文の概要: How Good Are GPT Models at Machine Translation? A Comprehensive
Evaluation
- arxiv url: http://arxiv.org/abs/2302.09210v1
- Date: Sat, 18 Feb 2023 02:11:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 19:49:41.230590
- Title: How Good Are GPT Models at Machine Translation? A Comprehensive
Evaluation
- Title(参考訳): GPTモデルは機械翻訳でどのくらい優れているか?
総合評価
- Authors: Amr Hendy, Mohamed Abdelrehim, Amr Sharaf, Vikas Raunak, Mohamed Gabr,
Hitokazu Matsushita, Young Jin Kim, Mohamed Afify, Hany Hassan Awadalla
- Abstract要約: GPTモデルは高資源言語に対して非常に競争力のある翻訳品質を実現する。
また、GPTモデルと他の翻訳システムを組み合わせたハイブリッドアプローチにより、翻訳品質をさらに向上できることを示す。
- 参考スコア(独自算出の注目度): 16.90012234231392
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative Pre-trained Transformer (GPT) models have shown remarkable
capabilities for natural language generation, but their performance for machine
translation has not been thoroughly investigated. In this paper, we present a
comprehensive evaluation of GPT models for machine translation, covering
various aspects such as quality of different GPT models in comparison with
state-of-the-art research and commercial systems, effect of prompting
strategies, robustness towards domain shifts and document-level translation. We
experiment with eighteen different translation directions involving high and
low resource languages, as well as non English-centric translations, and
evaluate the performance of three GPT models: ChatGPT, GPT3.5
(text-davinci-003), and text-davinci-002. Our results show that GPT models
achieve very competitive translation quality for high resource languages, while
having limited capabilities for low resource languages. We also show that
hybrid approaches, which combine GPT models with other translation systems, can
further enhance the translation quality. We perform comprehensive analysis and
human evaluation to further understand the characteristics of GPT translations.
We hope that our paper provides valuable insights for researchers and
practitioners in the field and helps to better understand the potential and
limitations of GPT models for translation.
- Abstract(参考訳): GPT(Generative Pre-trained Transformer)モデルでは、自然言語生成に顕著な能力を示しているが、機械翻訳の性能は十分に研究されていない。
本稿では,機械翻訳におけるGPTモデルの包括的評価を行い,現状研究や商用システムとの比較,プロンプト戦略の効果,ドメインシフトに対する堅牢性,文書レベルの翻訳など,さまざまな側面について述べる。
高低リソース言語と非英語中心の翻訳を含む18の異なる翻訳方向を実験し、ChatGPT、GPT3.5(text-davinci-003)、text-davinci-002の3つのGPTモデルの性能評価を行った。
その結果,GPTモデルは低リソース言語では限られた能力を有しながら,高リソース言語では非常に競争力のある翻訳品質を実現することがわかった。
また,gptモデルと他の翻訳システムを組み合わせたハイブリッド手法により,翻訳品質がさらに向上することを示す。
我々は、GPT翻訳の特徴をより深く理解するために、包括的な分析と人的評価を行う。
我々の論文は、この分野の研究者や実践者に貴重な洞察を提供し、翻訳のためのGPTモデルの可能性と限界をよりよく理解する助けになることを願っている。
関連論文リスト
- Benchmarking GPT-4 against Human Translators: A Comprehensive Evaluation Across Languages, Domains, and Expertise Levels [20.05501751993599]
GPT-4は、全エラーの点において、中級のトランスレータに匹敵する性能を達成する。
従来のニューラル機械翻訳システムとは異なり、GPT-4は全ての評価された言語対に対して一貫した翻訳品質を維持している。
論文 参考訳(メタデータ) (2024-11-21T01:12:46Z) - Lost in the Source Language: How Large Language Models Evaluate the Quality of Machine Translation [64.5862977630713]
本研究では,機械翻訳評価タスクにおいて,Large Language Models (LLM) がソースデータと参照データをどのように活用するかを検討する。
参照情報が評価精度を大幅に向上させるのに対して,意外なことに,ソース情報は時として非生産的である。
論文 参考訳(メタデータ) (2024-01-12T13:23:21Z) - Do GPTs Produce Less Literal Translations? [20.095646048167612]
大規模言語モデル(LLM)は多くの自然言語生成や理解タスクに対処できる汎用言語モデルとして登場した。
GPTからの英語(E-X)からの翻訳はリテラルが低い傾向にあり、機械翻訳の品質指標に類似またはより良いスコアが示されることがわかりました。
論文 参考訳(メタデータ) (2023-05-26T10:38:31Z) - Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。
本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文 参考訳(メタデータ) (2023-04-05T03:49:06Z) - How to Design Translation Prompts for ChatGPT: An Empirical Study [18.678893287863033]
ChatGPTは自然言語理解と自然言語生成において驚くべき能力を示した。
私たちは、広範囲の翻訳にいくつかの翻訳プロンプトを採用しています。
私たちの研究は、ChatGPTが翻訳において大きな可能性を秘めているという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-04-05T01:17:59Z) - Analyzing the Performance of GPT-3.5 and GPT-4 in Grammatical Error
Correction [28.58384091374763]
GPT-3とGPT-4モデルは強力で、様々な自然言語処理タスクで高い性能を発揮する。
GPT-3.5 モデル (text-davinci-003) と GPT-4 モデル (gpt-4-0314) の機能を GEC ベンチマークで検証した。
BEA-2019およびJFLEGデータセットにおける最良プロンプトの性能について報告する。
論文 参考訳(メタデータ) (2023-03-25T03:08:49Z) - A Comprehensive Capability Analysis of GPT-3 and GPT-3.5 Series Models [71.42197262495056]
GPTシリーズモデルは、その例外的な自然言語処理能力により、かなりの注目を集めている。
2つのGPT-3系列モデルと4つのGPT-3.5系列モデルからなる6つの代表モデルを選択する。
21個のデータセットを用いて,9つの自然言語理解タスク(NLU)の性能評価を行った。
実験の結果,NLUタスクにおけるGPTシリーズモデルの全体的な能力は,モデルが進化するにつれて徐々に向上しないことがわかった。
論文 参考訳(メタデータ) (2023-03-18T14:02:04Z) - Large Language Models Are State-of-the-Art Evaluators of Translation
Quality [7.818228526742237]
GEMBAは、翻訳品質を評価するためのGPTベースのメトリクスである。
本稿では,ChatGPTとGPT-4を含む9種類のGPTモデルについて検討する。
本手法は, MQMに基づく人間ラベルと比較した場合, 両モードで最先端の精度を実現する。
論文 参考訳(メタデータ) (2023-02-28T12:23:48Z) - News Summarization and Evaluation in the Era of GPT-3 [73.48220043216087]
GPT-3は,大規模な要約データセット上で訓練された微調整モデルと比較する。
我々は,GPT-3サマリーが圧倒的に好まれるだけでなく,タスク記述のみを用いることで,現実性に乏しいようなデータセット固有の問題に悩まされることも示している。
論文 参考訳(メタデータ) (2022-09-26T01:04:52Z) - Elaboration-Generating Commonsense Question Answering at Scale [77.96137534751445]
一般的な感覚を必要とする質問応答では、言語モデル(例えばGPT-3)が背景知識を表すテキストを生成するために使われてきた。
より小さな言語モデルを微調整して有用な中間コンテキストを生成します。
私たちのフレームワークは、2つの言語モデルの更新 – 開発中のジェネレータと応答予測器 – を交互に行います。
論文 参考訳(メタデータ) (2022-09-02T18:32:09Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。