論文の概要: How Good Are LLMs for Literary Translation, Really? Literary Translation Evaluation with Humans and LLMs
- arxiv url: http://arxiv.org/abs/2410.18697v2
- Date: Tue, 25 Feb 2025 10:20:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:19:57.766789
- Title: How Good Are LLMs for Literary Translation, Really? Literary Translation Evaluation with Humans and LLMs
- Title(参考訳): 文学翻訳にLLMはどこまで優れているか : 人間とLLMによる文学翻訳評価
- Authors: Ran Zhang, Wei Zhao, Steffen Eger,
- Abstract要約: LITEVAL-CORPUSは、検証された人間の翻訳と9つの文学機械翻訳システムからの出力を含む並列コーパスである。
複雑度の異なる評価手法の整合性と妥当性について検討する。
総合評価の結果,人文翻訳はLLM翻訳より一貫して優れていたことが示唆された。
- 参考スコア(独自算出の注目度): 23.247387152595067
- License:
- Abstract: Recent research has focused on literary machine translation (MT) as a new challenge in MT. However, the evaluation of literary MT remains an open problem. We contribute to this ongoing discussion by introducing LITEVAL-CORPUS, a paragraph-level parallel corpus containing verified human translations and outputs from 9 MT systems, which totals over 2k translations and 13k evaluated sentences across four language pairs, costing 4.5k C. This corpus enables us to (i) examine the consistency and adequacy of human evaluation schemes with various degrees of complexity, (ii) compare evaluations by students and professionals, assess the effectiveness of (iii) LLM-based metrics and (iv) LLMs themselves. Our findings indicate that the adequacy of human evaluation is controlled by two factors: the complexity of the evaluation scheme (more complex is less adequate) and the expertise of evaluators (higher expertise yields more adequate evaluations). For instance, MQM (Multidimensional Quality Metrics), a complex scheme and the de facto standard for non-literary human MT evaluation, is largely inadequate for literary translation evaluation: with student evaluators, nearly 60% of human translations are misjudged as indistinguishable or inferior to machine translations. In contrast, BWS (BEST-WORST SCALING), a much simpler scheme, identifies human translations at a rate of 80-100%. Automatic metrics fare dramatically worse, with rates of at most 20%. Our overall evaluation indicates that published human translations consistently outperform LLM translations, where even the most recent LLMs tend to produce considerably more literal and less diverse translations compared to humans.
- Abstract(参考訳): 近年,MTにおける新たな課題として,文語機械翻訳(MT)が注目されているが,文語機械翻訳の評価は依然として未解決の課題である。
LITEVAL-CORPUSは、検証された人間の翻訳と9つのMTシステムからの出力を含むパラレルコーパスで、4つの言語対で合計2k以上の翻訳と13k以上の評価文が作成され、4.5kCのコストがかかる。
一 複雑さの度合いの異なる人的評価方式の整合性及び妥当性を検討すること。
(二 学生と専門職による評価を比較して、その効果を評価すること。)
三 LLM に基づくメトリクス及び
(4)LDM自体。
その結果,評価手法の複雑さ(複雑度が低い)と評価者の専門知識(高い専門知識がより適切な評価をもたらす)の2つの要因によって,評価の妥当性が制御されていることがわかった。
例えば、複雑なスキームであるMQM(Multidimensional Quality Metrics)は、非文学的人間のMT評価のデファクトスタンダードであり、文学的翻訳評価には不適切である。
対照的に、BWS(BEST-WORST SCAling)はより単純なスキームであり、80-100%のレートで人間の翻訳を識別する。
自動測度は劇的に悪化し、20%以上も上昇した。
我々の総合的な評価は、公開された人間の翻訳はLLM翻訳よりも一貫して優れており、最新のLLMでさえ、人間に比べてはるかにリテラルが高く多様性の低い翻訳を生成する傾向にあることを示している。
関連論文リスト
- Exploring Large Language Models for Translating Romanian Computational Problems into English [0.0]
本研究では,ロバストな大規模言語モデル(LLM)が,十分に構造化されたプロンプトを与えられた場合,あまり一般的でない言語を翻訳する際に,その性能を維持あるいは向上できることを示す。
OpenRoLLM, Llama 3.1 8B, Llama 3.2 3B, GPT-4o など, 複数の LLM の翻訳手法について検討した。
論文 参考訳(メタデータ) (2025-01-09T22:17:44Z) - Benchmarking GPT-4 against Human Translators: A Comprehensive Evaluation Across Languages, Domains, and Expertise Levels [20.05501751993599]
GPT-4は、全エラーの点において、中級のトランスレータに匹敵する性能を達成する。
従来のニューラル機械翻訳システムとは異なり、GPT-4は全ての評価された言語対に対して一貫した翻訳品質を維持している。
論文 参考訳(メタデータ) (2024-11-21T01:12:46Z) - GPT-4 vs. Human Translators: A Comprehensive Evaluation of Translation Quality Across Languages, Domains, and Expertise Levels [18.835573312027265]
本研究では,人間の翻訳者に対するLarge Language Models(LLMs)の翻訳品質を包括的に評価する。
また, GPT-4は, 中高の翻訳者よりも遅れが小さいため, 中高の翻訳者に対して同等に機能することがわかった。
論文 参考訳(メタデータ) (2024-07-04T05:58:04Z) - (Perhaps) Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts [52.18246881218829]
本稿では,大言語モデル(LLM)をベースとした多エージェントフレームワークを,TransAgentsという企業として実装した。
本システムの有効性を評価するため,モノリンガル・ヒューマン・プライス(MHP)とバイリンガル・LLM・プライス(BLP)の2つの革新的な評価戦略を提案する。
論文 参考訳(メタデータ) (2024-05-20T05:55:08Z) - Building Accurate Translation-Tailored LLMs with Language Aware Instruction Tuning [57.323716555996114]
オフターゲット翻訳は、特に低リソース言語では未解決の問題である。
最近の研究は、翻訳命令の機能を強調するために高度なプロンプト戦略を設計するか、LLMの文脈内学習能力を活用している。
本研究では,LLMの命令追従能力(特に翻訳方向)を向上させるために,2段階の微調整アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-03-21T13:47:40Z) - Large Language Models "Ad Referendum": How Good Are They at Machine
Translation in the Legal Domain? [0.0]
本研究では,法域内の4つの言語対にまたがる伝統型ニューラルネットワーク翻訳(NMT)システムに対して,2つの最先端の大規模言語モデル(LLM)の機械翻訳(MT)の品質を評価する。
AEM(Automatic Evaluation met-rics)とHE(Human Evaluation)を専門のトランスラレータで組み合わせて、翻訳ランク、流用度、妥当性を評価する。
論文 参考訳(メタデータ) (2024-02-12T14:40:54Z) - Contrastive Preference Optimization: Pushing the Boundaries of LLM Performance in Machine Translation [50.00235162432848]
我々は22Kパラレル文と12Mパラメータしか持たないALMAモデルを訓練する。
ALMA-Rと呼ばれる結果のモデルは、WMTコンテストの勝者とGPT-4のパフォーマンスと一致または上回ることができる。
論文 参考訳(メタデータ) (2024-01-16T15:04:51Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [103.89753784762445]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。
本稿では, MMT における LLM の利点と課題を体系的に検討する。
また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文 参考訳(メタデータ) (2023-04-10T15:51:30Z) - Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models [57.80514758695275]
機械翻訳(MT)の品質を評価するために,大規模言語モデル(LLM)を用いることで,システムレベルでの最先端のパフォーマンスを実現する。
我々はtextbftexttError Analysis Prompting (EAPrompt) と呼ばれる新しいプロンプト手法を提案する。
本手法は,多次元品質指標 (MQM) とtextitproduces を用いて,システムレベルとセグメントレベルの両方で説明可能かつ信頼性の高いMT評価を行う。
論文 参考訳(メタデータ) (2023-03-24T05:05:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。