論文の概要: Can ChatGPT Rival Neural Machine Translation? A Comparative Study
- arxiv url: http://arxiv.org/abs/2401.05176v1
- Date: Wed, 10 Jan 2024 14:20:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-11 14:31:17.289454
- Title: Can ChatGPT Rival Neural Machine Translation? A Comparative Study
- Title(参考訳): ChatGPTのニューラルネットワーク翻訳は可能か?
比較研究
- Authors: Zhaokun Jiang and Ziyin Zhang
- Abstract要約: 本稿では,ChatGPTで表される大規模言語モデルの,中国語の外交文を英語に翻訳するメインストリームのニューラルネットワーク翻訳(NMT)エンジンと比較して評価する。
本研究では,ChatGPT と NMT エンジンの翻訳品質を 4 つの自動測定値で測定し,エラータイポロジーと6 つの解析ルーリックに基づいて人的評価を行った。
- 参考スコア(独自算出の注目度): 0.7856362837294112
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Inspired by the increasing interest in leveraging large language models for
translation, this paper evaluates the capabilities of large language models
(LLMs) represented by ChatGPT in comparison to the mainstream neural machine
translation (NMT) engines in translating Chinese diplomatic texts into English.
Specifically, we examine the translation quality of ChatGPT and NMT engines as
measured by four automated metrics and human evaluation based on an
error-typology and six analytic rubrics. Our findings show that automated
metrics yield similar results for ChatGPT under different prompts and NMT
systems, while human annotators tend to assign noticeably higher scores to
ChatGPT when it is provided an example or contextual information about the
translation task. Pairwise correlation between automated metrics and dimensions
of human evaluation produces weak and non-significant results, suggesting the
divergence between the two methods of translation quality assessment. These
findings provide valuable insights into the potential of ChatGPT as a capable
machine translator, and the influence of prompt engineering on its performance.
- Abstract(参考訳): 大規模言語モデルの翻訳への活用への関心の高まりに触発された本論文は,中国外交文書を英語に翻訳する主流のニューラルマシン翻訳(nmt)エンジンと比較して,chatgptで代表される大規模言語モデル(llms)の能力を評価する。
具体的には,ChatGPT と NMT エンジンの翻訳品質を4つの自動測定値で測定し,エラータイポロジーと6つの解析ルーリックに基づいて人的評価を行った。
以上の結果から,ChatGPTでは自動測定値が異なるプロンプトやNTTシステムで同様の結果が得られる一方で,翻訳タスクの例や文脈情報を提供する場合には,人間のアノテータが顕著に高いスコアをChatGPTに割り当てる傾向が見られた。
自動測定と人間評価の次元の対関係は弱い結果と意味のない結果をもたらし、2つの翻訳品質評価方法の相違を示唆する。
これらの結果から,ChatGPTが機械翻訳の能力向上に寄与する可能性が示唆された。
関連論文リスト
- Distinguishing Translations by Human, NMT, and ChatGPT: A Linguistic and
Statistical Approach [0.6650227510403052]
本研究では,(1)NMTとヒト翻訳(HT)からのChatGPT生成翻訳の識別可能性,(2)翻訳タイプの言語的特徴,(3)ChatGPT生成翻訳とHT,あるいはNMTとの類似度について検討する。
論文 参考訳(メタデータ) (2023-12-17T15:56:05Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - Comparative Analysis of CHATGPT and the evolution of language models [0.0]
本稿では,機械翻訳,機械要約,質問応答,言語生成など,NLPにおける一般的な考え方を紹介する。
大規模言語モデルの安全な大規模導入例として,ChatGPTの議論と結果を検証するための戦略をまとめて提示する。
論文 参考訳(メタデータ) (2023-03-28T03:11:28Z) - Is ChatGPT a Good NLG Evaluator? A Preliminary Study [121.77986688862302]
NLG測定値として信頼性を示すため,ChatGPTのメタ評価を行った。
実験の結果,ChatGPTは従来の自動測定値と比較して,人間の判断と最先端あるいは競合的な相関を達成できた。
我々の予備研究は、汎用的な信頼性のあるNLGメトリックの出現を促すことを願っている。
論文 参考訳(メタデータ) (2023-03-07T16:57:20Z) - Machine Translation Impact in E-commerce Multilingual Search [0.0]
言語間情報検索は機械翻訳の品質と高い相関関係を持つ。
クエリ翻訳の品質を改善することで、検索性能をさらに向上するメリットはほとんど、あるいは全く得られない、というしきい値が存在するかもしれない。
論文 参考訳(メタデータ) (2023-01-31T21:59:35Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - Competency-Aware Neural Machine Translation: Can Machine Translation
Know its Own Translation Quality? [61.866103154161884]
ニューラルマシン翻訳(NMT)は、意識せずに起こる失敗に対してしばしば批判される。
本稿では,従来のNMTを自己推定器で拡張することで,新たな能力認識型NMTを提案する。
提案手法は品質評価において優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2022-11-25T02:39:41Z) - Minimum Bayes Risk Decoding with Neural Metrics of Translation Quality [16.838064121696274]
この作業は、翻訳品質の多様な自動メトリクスを最適化するために、最小ベイズリスクデコーディングを適用します。
実験により、神経翻訳モデルと神経基準に基づく計量であるBLEURTを組み合わせることで、自動評価と人的評価が大幅に改善されることが示されている。
論文 参考訳(メタデータ) (2021-11-17T20:48:02Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。