論文の概要: LiTransProQA: an LLM-based Literary Translation evaluation metric with Professional Question Answering
- arxiv url: http://arxiv.org/abs/2505.05423v3
- Date: Thu, 22 May 2025 10:01:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 14:49:22.327584
- Title: LiTransProQA: an LLM-based Literary Translation evaluation metric with Professional Question Answering
- Title(参考訳): LiTransProQA: 専門質問応答を用いたLLMに基づく文学翻訳評価指標
- Authors: Ran Zhang, Wei Zhao, Lieve Macken, Steffen Eger,
- Abstract要約: LiTransProQA(リトランプロQA)は、文学翻訳評価のために設計されたLLMベースの質問応答フレームワークである。
プロの文芸翻訳家や研究者の洞察を融合させ、文学機器、文化理解、権威的な声に焦点を当てている。
LiTransProQAは現在の指標を大幅に上回り、相関関係の最大0.07倍、最先端の指標を15ポイント以上上回っている。
- 参考スコア(独自算出の注目度): 21.28047224832753
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The impact of Large Language Models (LLMs) has extended into literary domains. However, existing evaluation metrics prioritize mechanical accuracy over artistic expression and tend to overrate machine translation as being superior to human translation from experienced professionals. In the long run, this bias could result in an irreversible decline in translation quality and cultural authenticity. In response to the urgent need for a specialized literary evaluation metric, we introduce LiTransProQA, a novel, reference-free, LLM-based question-answering framework designed for literary translation evaluation. LiTransProQA uniquely integrates insights from professional literary translators and researchers, focusing on critical elements in literary quality assessment such as literary devices, cultural understanding, and authorial voice. Our extensive evaluation shows that while literary-finetuned XCOMET-XL yields marginal gains, LiTransProQA substantially outperforms current metrics, achieving up to 0.07 gain in correlation and surpassing the best state-of-the-art metrics by over 15 points in adequacy assessments. Incorporating professional translator insights as weights further improves performance, highlighting the value of translator inputs. Notably, LiTransProQA reaches human-level evaluation performance comparable to trained student evaluators. It shows broad applicability to open-source models like LLaMa3.3-70b and Qwen2.5-32b, indicating its potential as an accessible and training-free tool for evaluating literary translations that require local processing due to copyright or ethical considerations. The code and datasets are available under: https://github.com/zhangr2021/TransProQA.
- Abstract(参考訳): LLM(Large Language Models)の影響は文学分野にも及んでいる。
しかし、既存の評価指標は、芸術的表現よりも機械的精度を優先し、経験豊富な専門家による人間の翻訳よりも優れた機械翻訳を優先する傾向にある。
長期的には、このバイアスは翻訳の質と文化の信頼性を不可逆的に低下させる可能性がある。
専門的な文芸評価基準の必要性に応えて,文芸翻訳評価のために設計された,LLMに基づく新規な質問応答フレームワークLiTransProQAを紹介する。
LiTransProQAはプロの文芸翻訳家や研究者の洞察を独自に統合し、文学機器、文化理解、権威音声などの文学的品質評価における重要な要素に焦点を当てている。
文献に精通したXCOMET-XLは限界ゲインを得られるが,LiTransProQAは相関関係の最大0.07ゲインを達成し,精度評価の15ポイント以上を達成している。
プロの翻訳者の洞察を重みとして組み込むことでパフォーマンスが向上し、翻訳者の入力の価値が強調される。
特に、LiTransProQAは、訓練された学生評価子に匹敵する人間レベルの評価性能に達する。
LLaMa3.3-70b や Qwen2.5-32b のようなオープンソースモデルに適用可能であり、著作権や倫理的配慮による局所的な処理を必要とする文学翻訳を評価するための、アクセス可能でトレーニングのないツールとしての可能性を示している。
コードとデータセットは、https://github.com/zhangr2021/TransProQA.comで公開されている。
関連論文リスト
- Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering [68.3400058037817]
本稿では,TREQA(Translation Evaluation via Question-Answering)について紹介する。
我々は,TREQAが最先端のニューラルネットワークとLLMベースのメトリクスより優れていることを示し,代用段落レベルの翻訳をランク付けする。
論文 参考訳(メタデータ) (2025-04-10T09:24:54Z) - A 2-step Framework for Automated Literary Translation Evaluation: Its Promises and Pitfalls [15.50296318831118]
文芸機械翻訳を評価するための2段階パイプラインの実現可能性を提案し,評価する。
私たちのフレームワークは、文学翻訳に適した細粒度で解釈可能なメトリクスを提供します。
論文 参考訳(メタデータ) (2024-12-02T10:07:01Z) - Large Language Models for Classical Chinese Poetry Translation: Benchmarking, Evaluating, and Improving [43.148203559785095]
印象的な多言語機能を持つ大規模言語モデル(LLM)は、この極端な翻訳要求を達成するための希望の光となるかもしれない。
本稿ではまず,各漢詩にエレガントな翻訳が認められた適切なベンチマーク(PoetMT)を紹介する。
本稿では,GPT-4に基づく新しい測定基準を提案し,現在のLCMがこれらの要求を満たす範囲を評価する。
論文 参考訳(メタデータ) (2024-08-19T12:34:31Z) - (Perhaps) Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts [56.7988577327046]
翻訳企業の役割と協調の実践をシミュレートする,新しいマルチエージェントフレームワークであるTransAgentsを紹介する。
本研究は,翻訳品質の向上,特にテキストの長文化におけるマルチエージェント協調の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2024-05-20T05:55:08Z) - A Bayesian approach to translators' reliability assessment [0.0]
我々は、複雑なシステムの観点から、翻訳品質評価プロセスを複雑なプロセスとみなす。
TQAプロセスに関わる特徴,すなわち翻訳難易度,翻訳生成と品質評価に関わる翻訳者の特性をパラメータ化する2つのベイズモデルを構築した。
専門家翻訳者であっても、レビュアーの信頼性は当然と言えないことを示す。
論文 参考訳(メタデータ) (2022-03-14T14:29:45Z) - Measuring Uncertainty in Translation Quality Evaluation (TQE) [62.997667081978825]
本研究は,翻訳テキストのサンプルサイズに応じて,信頼区間を精度良く推定する動機づけた研究を行う。
我々はベルヌーイ統計分布モデリング (BSDM) とモンテカルロサンプリング分析 (MCSA) の手法を適用した。
論文 参考訳(メタデータ) (2021-11-15T12:09:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。