論文の概要: Automated evaluation of LLMs for effective machine translation of Mandarin Chinese to English
- arxiv url: http://arxiv.org/abs/2603.09998v1
- Date: Sun, 15 Feb 2026 22:43:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-15 16:38:22.545666
- Title: Automated evaluation of LLMs for effective machine translation of Mandarin Chinese to English
- Title(参考訳): 中国語から英語への効果的な機械翻訳のためのLLMの自動評価
- Authors: Yue Zhang, Rodney Beard, John Hawkins, Rohitash Chandra,
- Abstract要約: マンダリンの中国語から英語への翻訳を評価するために,意味分析と感情分析を特徴とする自動機械学習フレームワークを利用する。
我々は、現代・古典文学にまたがる新しいテキストやニュース記事を含む、高名な漢文の様々なクラスの原文と翻訳文を比較した。
以上の結果から,LLMはニュースメディア翻訳において良好に機能するが,文学的テキストに適用すると,その性能にばらつきが生じることが示唆された。
- 参考スコア(独自算出の注目度): 8.653960569736904
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Although Large Language Models (LLMs) have exceptional performance in machine translation, only a limited systematic assessment of translation quality has been done. The challenge lies in automated frameworks, as human-expert-based evaluations can be time-consuming, given the fast-evolving LLMs and the need for a diverse set of texts to ensure fair assessments of translation quality. In this paper, we utilise an automated machine learning framework featuring semantic and sentiment analysis to assess Mandarin Chinese to English translation using Google Translate and LLMs, including GPT-4, GPT-4o, and DeepSeek. We compare original and translated texts in various classes of high-profile Chinese texts, which include novel texts that span modern and classical literature, as well as news articles. As the main evaluation measures, we utilise novel similarity metrics to compare the quality of translations produced by LLMs and further evaluate them by an expert human translator. Our results indicate that the LLMs perform well in news media translation, but show divergence in their performance when applied to literary texts. Although GPT-4o and DeepSeek demonstrated better semantic conservation in complex situations, DeepSeek demonstrated better performance in preserving cultural subtleties and grammatical rendering. Nevertheless, the subtle challenges in translation remain: maintaining cultural details, classical references and figurative expressions remain an open problem for all the models.
- Abstract(参考訳): 大規模言語モデル(LLM)は機械翻訳において例外的な性能を持つが、翻訳品質の体系的評価は限られている。
高速進化するLCMと、翻訳品質の公平な評価を保証するための多様なテキストセットの必要性を考えると、人間専門家による評価は時間を要する可能性があるため、この課題は自動化フレームワークにある。
本稿では,意味と感情分析を特徴とする自動機械学習フレームワークを用いて,Google TranslateとLLM(GPT-4,GPT-4o,DeepSeek)を用いて中国語から英語への翻訳を評価する。
我々は、現代・古典文学にまたがる新しいテキストやニュース記事を含む、高名な漢文の様々なクラスの原文と翻訳文を比較した。
主な評価尺度として,LLMが生成する翻訳の質を比較し,専門家の翻訳者によってさらに評価するために,新しい類似度指標を利用する。
以上の結果から,LLMはニュースメディア翻訳において良好に機能するが,文学的テキストに適用すると,その性能にばらつきが生じることが示唆された。
GPT-4oとDeepSeekは複雑な状況下でのセマンティックな保存性の向上を示したが、DeepSeekは文化的な微妙さと文法的レンダリングの保存性能の向上を示した。
しかし、翻訳における微妙な課題は残る: 文化的な詳細を維持すること、古典的な参照と比喩表現は、すべてのモデルにとってオープンな問題である。
関連論文リスト
- DITING: A Multi-Agent Evaluation Framework for Benchmarking Web Novel Translation [31.1561882673283]
DIINGは、Webノベル翻訳のための最初の総合的な評価フレームワークである。
AgentEvalは専門家による検討をシミュレートし、語彙オーバーラップを超えて翻訳品質を評価する。
誤りラベルとスカラー品質スコアを付加した300文対のメタ評価データセットであるMetricAlignを開発した。
論文 参考訳(メタデータ) (2025-10-10T08:10:10Z) - Liaozhai through the Looking-Glass: On Paratextual Explicitation of Culture-Bound Terms in Machine Translation [70.43884512651668]
我々は、文学・翻訳研究からジェネットのパラテキスト論(1987年)を定式化し、機械翻訳におけるパラテキスト明示の課題を紹介した。
古典中国語の短編集集Liaozhaiの4つの英訳から560の専門家対応パラテキストのデータセットを構築した。
本研究は,言語的等価性を超えた機械翻訳におけるパラテクスト的明示の可能性を示すものである。
論文 参考訳(メタデータ) (2025-09-27T16:27:36Z) - Lost in Literalism: How Supervised Training Shapes Translationese in LLMs [51.04435855143767]
大規模言語モデル(LLM)は機械翻訳において顕著な成功を収めた。
しかし、過度にリテラルと不自然な翻訳を特徴とする翻訳は、依然として永続的な課題である。
我々は、黄金の基準を磨き、不自然なトレーニングインスタンスをフィルタリングするなど、これらのバイアスを軽減する方法を導入する。
論文 参考訳(メタデータ) (2025-03-06T12:14:45Z) - A comparison of translation performance between DeepL and Supertext [3.858812369171884]
本研究では、DeepLとSupertextという2つの商用機械翻訳システムを比較した。
我々は4つの言語方向の翻訳品質を、文書レベルのコンテキストでセグメントを評価するプロの翻訳者を用いて評価する。
セグメントレベルの評価では、ほとんどの場合、システム間での強い嗜好は示されていないが、文書レベルの分析では、4つの言語方向のうち3つにスーパーテキストの嗜好が示される。
論文 参考訳(メタデータ) (2025-02-04T18:53:42Z) - Benchmarking GPT-4 against Human Translators: A Comprehensive Evaluation Across Languages, Domains, and Expertise Levels [20.05501751993599]
GPT-4は、全エラーの点において、中級のトランスレータに匹敵する性能を達成する。
従来のニューラル機械翻訳システムとは異なり、GPT-4は全ての評価された言語対に対して一貫した翻訳品質を維持している。
論文 参考訳(メタデータ) (2024-11-21T01:12:46Z) - Large Language Models for Classical Chinese Poetry Translation: Benchmarking, Evaluating, and Improving [43.148203559785095]
印象的な多言語機能を持つ大規模言語モデル(LLM)は、この極端な翻訳要求を達成するための希望の光となるかもしれない。
本稿ではまず,各漢詩にエレガントな翻訳が認められた適切なベンチマーク(PoetMT)を紹介する。
本稿では,GPT-4に基づく新しい測定基準を提案し,現在のLCMがこれらの要求を満たす範囲を評価する。
論文 参考訳(メタデータ) (2024-08-19T12:34:31Z) - (Perhaps) Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts [56.7988577327046]
翻訳企業の役割と協調の実践をシミュレートする,新しいマルチエージェントフレームワークであるTransAgentsを紹介する。
本研究は,翻訳品質の向上,特にテキストの長文化におけるマルチエージェント協調の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2024-05-20T05:55:08Z) - Adapting Large Language Models for Document-Level Machine Translation [46.370862171452444]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを大幅に進歩させた。
近年の研究では、中程度のLLMはタスク固有の微調整後、より大きなLLMよりも優れていることが示されている。
本研究では,特定の言語対に対する文書レベルの機械翻訳(DocMT)にLLMを適用することに焦点を当てた。
論文 参考訳(メタデータ) (2024-01-12T09:29:13Z) - Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models [57.80514758695275]
機械翻訳(MT)の品質を評価するために,大規模言語モデル(LLM)を用いることで,システムレベルでの最先端のパフォーマンスを実現する。
我々はtextbftexttError Analysis Prompting (EAPrompt) と呼ばれる新しいプロンプト手法を提案する。
本手法は,多次元品質指標 (MQM) とtextitproduces を用いて,システムレベルとセグメントレベルの両方で説明可能かつ信頼性の高いMT評価を行う。
論文 参考訳(メタデータ) (2023-03-24T05:05:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。