論文の概要: How Good Are LLMs for Literary Translation, Really? Literary Translation Evaluation with Humans and LLMs
- arxiv url: http://arxiv.org/abs/2410.18697v1
- Date: Thu, 24 Oct 2024 12:48:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 16:44:25.624476
- Title: How Good Are LLMs for Literary Translation, Really? Literary Translation Evaluation with Humans and LLMs
- Title(参考訳): 文学翻訳にLLMはどこまで優れているか : 人間とLLMによる文学翻訳評価
- Authors: Ran Zhang, Wei Zhao, Steffen Eger,
- Abstract要約: LITEVAL-CORPUSは、複数の検証された人間の翻訳と9つの機械翻訳システムからの出力を含む並列コーパスである。
非文学的人為的MT評価におけるデファクトスタンダードである多次元品質指標(MQM)は、文学翻訳には不十分であることがわかった。
- 参考スコア(独自算出の注目度): 23.247387152595067
- License:
- Abstract: Recent research has focused on literary machine translation (MT) as a new challenge in MT. However, the evaluation of literary MT remains an open problem. We contribute to this ongoing discussion by introducing LITEVAL-CORPUS, a paragraph-level parallel corpus comprising multiple verified human translations and outputs from 9 MT systems, which totals over 2k paragraphs and includes 13k annotated sentences across four language pairs, costing 4.5k Euro. This corpus enables us to (i) examine the consistency and adequacy of multiple annotation schemes, (ii) compare evaluations by students and professionals, and (iii) assess the effectiveness of LLM-based metrics. We find that Multidimensional Quality Metrics (MQM), as the de facto standard in non-literary human MT evaluation, is inadequate for literary translation: While Best-Worst Scaling (BWS) with students and Scalar Quality Metric (SQM) with professional translators prefer human translations at rates of ~82% and ~94%, respectively, MQM with student annotators prefers human professional translations over the translations of the best-performing LLMs in only ~42% of cases. While automatic metrics generally show a moderate correlation with human MQM and SQM, they struggle to accurately identify human translations, with rates of at most ~20%. Our overall evaluation indicates that human professional translations consistently outperform LLM translations, where even the most recent LLMs tend to produce more literal and less diverse translations compared to human translations. However, newer LLMs such as GPT-4o perform substantially better than older ones.
- Abstract(参考訳): 近年,MTにおける新たな課題として,文語機械翻訳(MT)が注目されているが,文語機械翻訳の評価は依然として未解決の課題である。
LITEVAL-CORPUSは,9 MTシステムからの複数の検証された翻訳と出力を含むパラレルコーパスであり,合計で2k段落を超え,4つの言語対に13k節の注釈付き文が含まれており,そのコストは4.5kユーロである。
このコーパスで私たちは
(i)複数のアノテーションスキームの一貫性と妥当性を検討する。
(二)学生と専門職の評価を比較して
3) LLMに基づくメトリクスの有効性を評価する。
多次元品質指標(MQM)は,非文学的MT評価におけるデファクトスタンダードとして,文体翻訳に不適であることがわかった。学生とのBWS(Best-Worst Scaling)と,プロの翻訳者によるSQM(SQM)は,それぞれ82%と94%の率で人文翻訳を好んでいるが,学生のアノテータによるMQMは,ベストパフォーマンスのLLMの翻訳よりも人文翻訳を好んでいる。
自動測度は一般的にヒトのMQMとSQMとの適度な相関を示すが、人間の翻訳を正確に識別することは困難であり、その割合は最大で20%である。
我々の総合的な評価は、人間の翻訳はLLM翻訳より一貫して優れており、最新のLLMでさえ、人間の翻訳に比べてよりリテラルで多様性の低い翻訳を生成する傾向があることを示唆している。
しかし、GPT-4oのような新しいLSMは、古いLSMよりもかなり性能が良い。
関連論文リスト
- GPT-4 vs. Human Translators: A Comprehensive Evaluation of Translation Quality Across Languages, Domains, and Expertise Levels [18.835573312027265]
本研究では,人間の翻訳者に対するLarge Language Models(LLMs)の翻訳品質を包括的に評価する。
また, GPT-4は, 中高の翻訳者よりも遅れが小さいため, 中高の翻訳者に対して同等に機能することがわかった。
論文 参考訳(メタデータ) (2024-07-04T05:58:04Z) - (Perhaps) Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts [52.18246881218829]
本稿では,大言語モデル(LLM)をベースとした多エージェントフレームワークを,TransAgentsという企業として実装した。
本システムの有効性を評価するため,モノリンガル・ヒューマン・プライス(MHP)とバイリンガル・LLM・プライス(BLP)の2つの革新的な評価戦略を提案する。
論文 参考訳(メタデータ) (2024-05-20T05:55:08Z) - Building Accurate Translation-Tailored LLMs with Language Aware Instruction Tuning [57.323716555996114]
オフターゲット翻訳は、特に低リソース言語では未解決の問題である。
最近の研究は、翻訳命令の機能を強調するために高度なプロンプト戦略を設計するか、LLMの文脈内学習能力を活用している。
本研究では,LLMの命令追従能力(特に翻訳方向)を向上させるために,2段階の微調整アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-03-21T13:47:40Z) - Large Language Models "Ad Referendum": How Good Are They at Machine
Translation in the Legal Domain? [0.0]
本研究では,法域内の4つの言語対にまたがる伝統型ニューラルネットワーク翻訳(NMT)システムに対して,2つの最先端の大規模言語モデル(LLM)の機械翻訳(MT)の品質を評価する。
AEM(Automatic Evaluation met-rics)とHE(Human Evaluation)を専門のトランスラレータで組み合わせて、翻訳ランク、流用度、妥当性を評価する。
論文 参考訳(メタデータ) (2024-02-12T14:40:54Z) - Contrastive Preference Optimization: Pushing the Boundaries of LLM Performance in Machine Translation [50.00235162432848]
我々は22Kパラレル文と12Mパラメータしか持たないALMAモデルを訓練する。
ALMA-Rと呼ばれる結果のモデルは、WMTコンテストの勝者とGPT-4のパフォーマンスと一致または上回ることができる。
論文 参考訳(メタデータ) (2024-01-16T15:04:51Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [103.89753784762445]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。
本稿では, MMT における LLM の利点と課題を体系的に検討する。
また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文 参考訳(メタデータ) (2023-04-10T15:51:30Z) - Large language models effectively leverage document-level context for
literary translation, but critical errors persist [32.54546652197316]
大規模言語モデル(LLM)は、幅広い文レベルの翻訳データセット上での最先端技術と競合する。
我々は,Gpt-3.5 (text-davinci-003) LLM) を用いて文節全体を翻訳し,高品質な翻訳を行うという厳密な評価を通して示す。
論文 参考訳(メタデータ) (2023-04-06T17:27:45Z) - Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models [57.80514758695275]
機械翻訳(MT)の品質を評価するために,大規模言語モデル(LLM)を用いることで,システムレベルでの最先端のパフォーマンスを実現する。
我々はtextbftexttError Analysis Prompting (EAPrompt) と呼ばれる新しいプロンプト手法を提案する。
本手法は,多次元品質指標 (MQM) とtextitproduces を用いて,システムレベルとセグメントレベルの両方で説明可能かつ信頼性の高いMT評価を行う。
論文 参考訳(メタデータ) (2023-03-24T05:05:03Z) - Exploring Document-Level Literary Machine Translation with Parallel
Paragraphs from World Literature [35.1398797683712]
文献翻訳者は, 機械翻訳段落よりも, 84%の割合で人文翻訳を好んでいる。
我々は、通常のMT出力よりも出力が好ましい後編集モデルを専門家によって69%の速度で訓練する。
論文 参考訳(メタデータ) (2022-10-25T18:03:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。