論文の概要: Benchmarking GPT-4 against Human Translators: A Comprehensive Evaluation Across Languages, Domains, and Expertise Levels
- arxiv url: http://arxiv.org/abs/2411.13775v1
- Date: Thu, 21 Nov 2024 01:12:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:20:33.166531
- Title: Benchmarking GPT-4 against Human Translators: A Comprehensive Evaluation Across Languages, Domains, and Expertise Levels
- Title(参考訳): ヒト翻訳者に対するGPT-4のベンチマーク:言語、ドメイン、専門家の総合的な評価
- Authors: Jianhao Yan, Pingchuan Yan, Yulong Chen, Jing Li, Xianchao Zhu, Yue Zhang,
- Abstract要約: GPT-4は、全エラーの点において、中級のトランスレータに匹敵する性能を達成する。
従来のニューラル機械翻訳システムとは異なり、GPT-4は全ての評価された言語対に対して一貫した翻訳品質を維持している。
- 参考スコア(独自算出の注目度): 20.05501751993599
- License:
- Abstract: This study presents a comprehensive evaluation of GPT-4's translation capabilities compared to human translators of varying expertise levels. Through systematic human evaluation using the MQM schema, we assess translations across three language pairs (Chinese$\longleftrightarrow$English, Russian$\longleftrightarrow$English, and Chinese$\longleftrightarrow$Hindi) and three domains (News, Technology, and Biomedical). Our findings reveal that GPT-4 achieves performance comparable to junior-level translators in terms of total errors, while still lagging behind senior translators. Unlike traditional Neural Machine Translation systems, which show significant performance degradation in resource-poor language directions, GPT-4 maintains consistent translation quality across all evaluated language pairs. Through qualitative analysis, we identify distinctive patterns in translation approaches: GPT-4 tends toward overly literal translations and exhibits lexical inconsistency, while human translators sometimes over-interpret context and introduce hallucinations. This study represents the first systematic comparison between LLM and human translators across different proficiency levels, providing valuable insights into the current capabilities and limitations of LLM-based translation systems.
- Abstract(参考訳): 本研究は, GPT-4の翻訳能力について, 各種専門レベルの翻訳者と比較して総合的に評価した。
MQMスキーマを用いて,3つの言語対(中国語$\longleftrightarrow$ English,ロシア語$\longleftrightarrow$ English,中国語$\longleftrightarrow$Hindi)と3つのドメイン(ニューズ,テクノロジー,バイオメディカル)の翻訳を評価する。
以上の結果から,GPT-4は下層階のトランスレータに匹敵する性能を示しながら,上層階のトランスレータに遅れがみられた。
GPT-4は従来のニューラル機械翻訳システムとは異なり、全ての評価された言語ペア間で一貫した翻訳品質を維持している。
GPT-4は過剰にリテラルを翻訳し、語彙的不整合を示す傾向があり、一方で人間の翻訳者は時に過剰に解釈し、幻覚を導入する。
本研究は,LLMの翻訳能力と限界について,異なる習熟度レベルにおける人間翻訳者とLLMの体系的比較を行った最初の事例である。
関連論文リスト
- A comparison of translation performance between DeepL and Supertext [3.858812369171884]
本研究では、DeepLとSupertextという2つの商用機械翻訳システムを比較した。
我々は4つの言語方向の翻訳品質を、文書レベルのコンテキストでセグメントを評価するプロの翻訳者を用いて評価する。
セグメントレベルの評価では、ほとんどの場合、システム間での強い嗜好は示されていないが、文書レベルの分析では、4つの言語方向のうち3つにスーパーテキストの嗜好が示される。
論文 参考訳(メタデータ) (2025-02-04T18:53:42Z) - How Good Are LLMs for Literary Translation, Really? Literary Translation Evaluation with Humans and LLMs [23.247387152595067]
LITEVAL-CORPUSは、複数の検証された人間の翻訳と9つの機械翻訳システムからの出力を含む並列コーパスである。
非文学的人為的MT評価におけるデファクトスタンダードである多次元品質指標(MQM)は、文学翻訳には不十分であることがわかった。
論文 参考訳(メタデータ) (2024-10-24T12:48:03Z) - LLM-based Translation Inference with Iterative Bilingual Understanding [52.46978502902928]
大規模言語モデル(LLM)の言語間機能に基づいた,新しい反復的バイリンガル理解翻訳法を提案する。
LLMの言語横断的能力により、ソース言語とターゲット言語を別々にコンテキスト理解することが可能になる。
提案したIBUTは、いくつかの強力な比較法より優れている。
論文 参考訳(メタデータ) (2024-10-16T13:21:46Z) - GPT-4 vs. Human Translators: A Comprehensive Evaluation of Translation Quality Across Languages, Domains, and Expertise Levels [18.835573312027265]
本研究では,人間の翻訳者に対するLarge Language Models(LLMs)の翻訳品質を包括的に評価する。
また, GPT-4は, 中高の翻訳者よりも遅れが小さいため, 中高の翻訳者に対して同等に機能することがわかった。
論文 参考訳(メタデータ) (2024-07-04T05:58:04Z) - (Perhaps) Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts [52.18246881218829]
本稿では,大言語モデル(LLM)をベースとした多エージェントフレームワークを,TransAgentsという企業として実装した。
本システムの有効性を評価するため,モノリンガル・ヒューマン・プライス(MHP)とバイリンガル・LLM・プライス(BLP)の2つの革新的な評価戦略を提案する。
論文 参考訳(メタデータ) (2024-05-20T05:55:08Z) - Large Language Models "Ad Referendum": How Good Are They at Machine
Translation in the Legal Domain? [0.0]
本研究では,法域内の4つの言語対にまたがる伝統型ニューラルネットワーク翻訳(NMT)システムに対して,2つの最先端の大規模言語モデル(LLM)の機械翻訳(MT)の品質を評価する。
AEM(Automatic Evaluation met-rics)とHE(Human Evaluation)を専門のトランスラレータで組み合わせて、翻訳ランク、流用度、妥当性を評価する。
論文 参考訳(メタデータ) (2024-02-12T14:40:54Z) - Discourse Centric Evaluation of Machine Translation with a Densely
Annotated Parallel Corpus [82.07304301996562]
本稿では,江らが導入した大規模並列コーパスBWBに基づいて,リッチな談話アノテーションを用いた新しいデータセットを提案する。
ソース言語とターゲット言語の談話構造と類似点と相違点について検討する。
我々はMT出力が人間の翻訳と基本的に異なることを発見した。
論文 参考訳(メタデータ) (2023-05-18T17:36:41Z) - Large language models effectively leverage document-level context for
literary translation, but critical errors persist [32.54546652197316]
大規模言語モデル(LLM)は、幅広い文レベルの翻訳データセット上での最先端技術と競合する。
我々は,Gpt-3.5 (text-davinci-003) LLM) を用いて文節全体を翻訳し,高品質な翻訳を行うという厳密な評価を通して示す。
論文 参考訳(メタデータ) (2023-04-06T17:27:45Z) - Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。
本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文 参考訳(メタデータ) (2023-04-05T03:49:06Z) - Decoding and Diversity in Machine Translation [90.33636694717954]
NMTが楽しむBLEUスコアに対して支払う費用の多様性の違いを特徴付ける。
本研究は,ジェンダー代名詞を翻訳する際に,検索が既知バイアスの正解源となることを示唆する。
論文 参考訳(メタデータ) (2020-11-26T21:09:38Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。