Fugu-MT 論文翻訳(概要): Creativity Bias: How Machine Evaluation Struggles with Creativity in Literary Translations

論文の概要: Creativity Bias: How Machine Evaluation Struggles with Creativity in Literary Translations

arxiv url: http://arxiv.org/abs/2605.13596v1
Date: Wed, 13 May 2026 14:30:41 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-14 23:30:28.106997
Title: Creativity Bias: How Machine Evaluation Struggles with Creativity in Literary Translations
Title（参考訳）: 創造性バイアス:文学翻訳における機械評価と創造性との相互作用
Authors: Kyo Gerrits, Rik van Noord, Ana Guerberof Arenas,
Abstract要約: 本稿では,文章翻訳における自動評価指標(AEM)とLCM-as-a-judge評価の性能について検討する。目的は、これらのツールが翻訳、クリエイティビティ(創造的なシフトとエラー)を評価する際に、プロフェッショナルとどの程度うまく一致しているかを評価し、退屈な手作業のアノテーションを置き換えられるかどうかを確認することである。
参考スコア（独自算出の注目度）: 2.6208201746444564
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: This article investigates the performance of automatic evaluation metrics (AEMs) and LLM-as-a-judge evaluation on literary translation across multiple languages, genres, and translation modalities. The aim is to assess how well these tools align with professionals when evaluating translation, creativity (creative shifts & errors), and see if they can substitute laborious manual annotations. A dataset of literary translations across three modalities (human translation, machine translation, and post-editing), three genres and three language pairs was created and annotated in detail for creativity by experienced professional literary translators. The results show that both AEMs and LLM-as-a-judge evaluations correlate poorly with professional evaluations on creativity, with LLM-as-a-judge showing a systematic bias in favour of machine-translated texts and penalising creative and culturally appropriate solutions. Moreover, performance is consistently worse for more literary genres such as poetry. This highlights fundamental limitations of current automatic evaluation tools for literary translation and the need to create new tools that do not frequently consider out of routine translations as errors.
Abstract（参考訳）: 本稿では,複数の言語,ジャンル,翻訳モダリティを対象とした文体翻訳における自動評価指標(AEM)とLLM-as-a-judge評価の性能について検討する。目的は、これらのツールが翻訳、クリエイティビティ(創造的なシフトとエラー)を評価する際に、プロフェッショナルとどの程度うまく一致しているかを評価し、退屈な手作業のアノテーションを置き換えられるかどうかを確認することである。 3つのモダリティ(人間翻訳、機械翻訳、後編集)にまたがる文学翻訳のデータセット、3つのジャンルと3つの言語対が作成され、経験豊富な文芸翻訳家によって創造性のために注釈付けされた。その結果, AEM と LLM-as-a-judge の両者は, 創造性に関する専門的評価と相関が低く, LLM-as-a-judge は機械翻訳テキストに有利な体系的偏見を示し, 創造的かつ文化的に適切な解を導き出す。さらに、詩などの文学的なジャンルでは、パフォーマンスは一貫して悪化している。これは、現在の文学翻訳の自動評価ツールの基本的限界と、日常的な翻訳を誤りとして頻繁に考慮しない新しいツールを作成する必要性を強調している。

関連論文リスト

Towards a Linguistic Evaluation of Narratives: A Quantitative Stylistic Framework [51.56484100374058]
本研究は, 品質の指標としての言語的次元に着目し, ナラティブアセスメントに対する定量的アプローチを提案する。本稿では,33種類の定量的言語的特徴を包括的に抽出し,物語の自動評価手法を提案する。
論文参考訳（メタデータ） (2026-04-21T09:21:40Z)
COIG-Writer: A High-Quality Dataset for Chinese Creative Writing with Thought Processes [83.84578306665976]
大規模な言語モデルは、創造的な文章、特に非英語の文脈において体系的な欠陥を示す。提案するCOIG-Writerは,多種多様なアウトプットと,その基盤となる思考プロセスの両方をキャプチャする,中国のクリエイティブな文章データセットである。
論文参考訳（メタデータ） (2025-10-16T15:01:19Z)
Liaozhai through the Looking-Glass: On Paratextual Explicitation of Culture-Bound Terms in Machine Translation [70.43884512651668]
我々は、文学・翻訳研究からジェネットのパラテキスト論(1987年)を定式化し、機械翻訳におけるパラテキスト明示の課題を紹介した。古典中国語の短編集集Liaozhaiの4つの英訳から560の専門家対応パラテキストのデータセットを構築した。本研究は,言語的等価性を超えた機械翻訳におけるパラテクスト的明示の可能性を示すものである。
論文参考訳（メタデータ） (2025-09-27T16:27:36Z)
LiTransProQA: an LLM-based Literary Translation evaluation metric with Professional Question Answering [22.464208231092176]
LITRANSPROQAは,LLMをベースとした文献翻訳評価のための質問応答フレームワークである。 LITRANSPROQAはこのループに人間を統合し、プロの文芸翻訳家や研究者の洞察を取り入れている。 LITRANSPROQAは,文芸に富んだXCOMET-XLが限界ゲインを産み出す一方で,現在の指標を著しく上回っている。
論文参考訳（メタデータ） (2025-05-08T17:12:56Z)
Extending CREAMT: Leveraging Large Language Models for Literary Translation Post-Editing [0.0]
本研究では,大規模言語モデル(LLM)による後編集文体翻訳の実現可能性について検討する。以上の結果から,LLM生成後翻訳は人間の翻訳に比べて編集時間を大幅に短縮し,創造性も向上した。
論文参考訳（メタデータ） (2025-04-03T21:48:09Z)
Lost in Literalism: How Supervised Training Shapes Translationese in LLMs [51.04435855143767]
大規模言語モデル(LLM)は機械翻訳において顕著な成功を収めた。しかし、過度にリテラルと不自然な翻訳を特徴とする翻訳は、依然として永続的な課題である。我々は、黄金の基準を磨き、不自然なトレーニングインスタンスをフィルタリングするなど、これらのバイアスを軽減する方法を導入する。
論文参考訳（メタデータ） (2025-03-06T12:14:45Z)
(Perhaps) Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts [56.7988577327046]
翻訳企業の役割と協調の実践をシミュレートする,新しいマルチエージェントフレームワークであるTransAgentsを紹介する。本研究は,翻訳品質の向上,特にテキストの長文化におけるマルチエージェント協調の可能性を明らかにするものである。
論文参考訳（メタデータ） (2024-05-20T05:55:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。