論文の概要: TransProQA: an LLM-based literary Translation evaluation metric with Professional Question Answering
- arxiv url: http://arxiv.org/abs/2505.05423v1
- Date: Thu, 08 May 2025 17:12:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.975784
- Title: TransProQA: an LLM-based literary Translation evaluation metric with Professional Question Answering
- Title(参考訳): TransProQA: 専門質問応答を用いたLLMによる文訳評価指標
- Authors: Ran Zhang, Wei Zhao, Lieve Macken, Steffen Eger,
- Abstract要約: TransProQA(トランスプロQA)は、文学翻訳評価に特化して設計されたLLMベースの質問応答(QA)フレームワークである。
評価の結果,文芸に精通したXCOMET-XLでは限界ゲインが得られたが,TransProQAは現在の指標よりも大幅に優れていた。
TransProQAは、訓練された言語アノテータに匹敵する人間レベルの評価性能にアプローチする。
- 参考スコア(独自算出の注目度): 21.28047224832753
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The impact of Large Language Models (LLMs) has extended into literary domains. However, existing evaluation metrics prioritize mechanical accuracy over artistic expression and tend to overrate machine translation (MT) as being superior to experienced professional human translation. In the long run, this bias could result in a permanent decline in translation quality and cultural authenticity. In response to the urgent need for a specialized literary evaluation metric, we introduce TransProQA, a novel, reference-free, LLM-based question-answering (QA) framework designed specifically for literary translation evaluation. TransProQA uniquely integrates insights from professional literary translators and researchers, focusing on critical elements in literary quality assessment such as literary devices, cultural understanding, and authorial voice. Our extensive evaluation shows that while literary-finetuned XCOMET-XL yields marginal gains, TransProQA substantially outperforms current metrics, achieving up to 0.07 gain in correlation (ACC-EQ and Kendall's tau) and surpassing the best state-of-the-art (SOTA) metrics by over 15 points in adequacy assessments. Incorporating professional translator insights as weights further improves performance, highlighting the value of translator inputs. Notably, TransProQA approaches human-level evaluation performance comparable to trained linguistic annotators. It demonstrates broad applicability to open-source models such as LLaMA3.3-70b and Qwen2.5-32b, indicating its potential as an accessible and training-free literary evaluation metric and a valuable tool for evaluating texts that require local processing due to copyright or ethical considerations.
- Abstract(参考訳): LLM(Large Language Models)の影響は文学分野にも及んでいる。
しかし、既存の評価指標は、芸術的表現よりも機械的精度を優先し、経験豊富な人間の翻訳よりも優れた機械翻訳(MT)を優先する傾向にある。
長期的には、このバイアスは翻訳の質と文化の信頼性を恒久的に低下させる可能性がある。
専門的な文芸評価基準の必要性に応えて,文芸翻訳評価に特化して設計された新規なLLMに基づく質問応答(QA)フレームワークであるTransProQAを紹介する。
TransProQAはプロの文芸翻訳家や研究者の洞察を独自に統合し、文学機器、文化理解、権威音声などの文学的品質評価における重要な要素に焦点を当てている。
文献に精通したXCOMET-XLは限界ゲインを得られるが、TransProQAは現在の指標を著しく上回り、相関(ACC-EQとKendall's tau)の最大0.07ゲインを達成し、精度評価において最高のSOTA(State-of-the-art)指標を15ポイント以上超えている。
プロの翻訳者の洞察を重みとして組み込むことでパフォーマンスが向上し、翻訳者の入力の価値が強調される。
特に、TransProQAは、訓練された言語アノテータに匹敵する人間レベルの評価性能にアプローチする。
LLaMA3.3-70b や Qwen2.5-32b といったオープンソースモデルに適用可能であり、アクセス可能でトレーニング不要な文学評価指標としての可能性を示し、著作権や倫理的配慮による局所的な処理を必要とするテキストを評価するための貴重なツールであることを示している。
関連論文リスト
- Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering [68.3400058037817]
本稿では,TREQA(Translation Evaluation via Question-Answering)について紹介する。
我々は,TREQAが最先端のニューラルネットワークとLLMベースのメトリクスより優れていることを示し,代用段落レベルの翻訳をランク付けする。
論文 参考訳(メタデータ) (2025-04-10T09:24:54Z) - A 2-step Framework for Automated Literary Translation Evaluation: Its Promises and Pitfalls [15.50296318831118]
文芸機械翻訳を評価するための2段階パイプラインの実現可能性を提案し,評価する。
私たちのフレームワークは、文学翻訳に適した細粒度で解釈可能なメトリクスを提供します。
論文 参考訳(メタデータ) (2024-12-02T10:07:01Z) - Large Language Models for Classical Chinese Poetry Translation: Benchmarking, Evaluating, and Improving [43.148203559785095]
印象的な多言語機能を持つ大規模言語モデル(LLM)は、この極端な翻訳要求を達成するための希望の光となるかもしれない。
本稿ではまず,各漢詩にエレガントな翻訳が認められた適切なベンチマーク(PoetMT)を紹介する。
本稿では,GPT-4に基づく新しい測定基準を提案し,現在のLCMがこれらの要求を満たす範囲を評価する。
論文 参考訳(メタデータ) (2024-08-19T12:34:31Z) - (Perhaps) Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts [56.7988577327046]
翻訳企業の役割と協調の実践をシミュレートする,新しいマルチエージェントフレームワークであるTransAgentsを紹介する。
本研究は,翻訳品質の向上,特にテキストの長文化におけるマルチエージェント協調の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2024-05-20T05:55:08Z) - A Bayesian approach to translators' reliability assessment [0.0]
我々は、複雑なシステムの観点から、翻訳品質評価プロセスを複雑なプロセスとみなす。
TQAプロセスに関わる特徴,すなわち翻訳難易度,翻訳生成と品質評価に関わる翻訳者の特性をパラメータ化する2つのベイズモデルを構築した。
専門家翻訳者であっても、レビュアーの信頼性は当然と言えないことを示す。
論文 参考訳(メタデータ) (2022-03-14T14:29:45Z) - Measuring Uncertainty in Translation Quality Evaluation (TQE) [62.997667081978825]
本研究は,翻訳テキストのサンプルサイズに応じて,信頼区間を精度良く推定する動機づけた研究を行う。
我々はベルヌーイ統計分布モデリング (BSDM) とモンテカルロサンプリング分析 (MCSA) の手法を適用した。
論文 参考訳(メタデータ) (2021-11-15T12:09:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。