Fugu-MT 論文翻訳(概要): Beyond Reproduction: A Paired-Task Framework for Assessing LLM Comprehension and Creativity in Literary Translation

論文の概要: Beyond Reproduction: A Paired-Task Framework for Assessing LLM Comprehension and Creativity in Literary Translation

arxiv url: http://arxiv.org/abs/2604.18169v1
Date: Mon, 20 Apr 2026 12:28:59 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-21 21:52:52.860989
Title: Beyond Reproduction: A Paired-Task Framework for Assessing LLM Comprehension and Creativity in Literary Translation
Title（参考訳）: 複製を超えて:文学翻訳におけるLLM理解と創造性を評価するペア・タスク・フレームワーク
Authors: Ran Zhang, Steffen Eger, Arda Tezcan, Wei Zhao, Simone Paolo Ponzetto, Lieve Macken,
Abstract要約: 大きな言語モデル(LLM)における強い理解は人間レベルの創造性に変換されない創造性指向のプロンプトは控えめな利得しか得られず、人間レベルの創造性(0.167対0.246)に近いのは1つのモデルであるMistral-Largeのみである。モデルとプロンプトの組み合わせの合計で、創造性のスコアが0.1を超えているのは3つだけだ。
参考スコア（独自算出の注目度）: 26.846664202539824
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large language models (LLMs) are increasingly used for creative tasks such as literary translation. Yet translational creativity remains underexplored and is rarely evaluated at scale, while source-text comprehension is typically studied in isolation, despite the fact that, in professional translation, comprehension and creativity are tightly intertwined. We address these gaps with a paired-task framework applied to literary excerpts from 11 books. Task 1 assesses source-text comprehension, and Task 2 evaluates translational creativity through Units of Creative Potential (UCPs), such as metaphors and wordplay. Using a scalable evaluation setup that combines expert human annotations with UCP-based automatic scoring, we benchmark 23 models and four creativity-oriented prompts. Our findings show that strong comprehension does not translate into human-level creativity: models often produce literal or contextually inappropriate renderings, with particularly large gaps for the more distant English-Chinese language pair. Creativity-oriented prompts yield only modest gains, and only one model, Mistral-Large, comes close to human-level creativity (0.167 vs. 0.246). Across all model-prompt combinations, only three exceed a creativity score of 0.1, while the rest remain at or near zero.
Abstract（参考訳）: 大規模言語モデル(LLM)は、文学翻訳のような創造的なタスクにますます使われている。しかし、翻訳の創造性は未熟であり、大規模に評価されることはめったにないが、ソース・テキストの理解は、専門的な翻訳において、理解と創造性が密接に絡み合っているという事実にもかかわらず、通常、独立して研究される。このギャップを11冊の著作の抜粋に適用したペア・タスク・フレームワークで解決する。タスク1はソーステキストの理解を評価し、タスク2はメタファーやワードプレイのような創造可能性単位(UCP)を通して翻訳の創造性を評価する。専門家のアノテーションとUCPベースの自動スコアリングを組み合わせたスケーラブルな評価設定を用いて、23のモデルと4つのクリエイティビティ指向のプロンプトをベンチマークする。モデルはリテラルや文脈的に不適切なレンダリングをしばしば生み出すが、特に遠方の英語と中国語のペアには大きなギャップがある。創造性指向のプロンプトは控えめな利得しか得られず、人間レベルのクリエイティビティ(0.167対0.246)に近いのはMistral-Largeというモデルのみである。モデルとプロンプトの組み合わせの合計で、創造性のスコアが0.1を超えているのは3つだけであり、残りは0付近に留まっている。

関連論文リスト

Beyond Divergent Creativity: A Human-Based Evaluation of Creativity in Large Language Models [6.036586911740041]
大規模言語モデル(LLM)は、言語的創造的なタスクにますます使われています。広く使われているダイバージェント・アソシエーション・タスク(DAT)は、新規性を重視し、適切性を無視している。 DAT上での最先端のLCMの範囲を評価し、そのタスクにおけるスコアが、創造力を持たない2つのベースラインのスコアよりも低いことを示す。
論文参考訳（メタデータ） (2026-01-28T12:41:32Z)
CreativityPrism: A Holistic Benchmark for Large Language Model Creativity [64.18257552903151]
創造性はしばしば人間の知能の目印と見なされる。さまざまなシナリオにまたがってクリエイティビティを評価するための総合的なフレームワークはまだ存在しません。本稿では,創造性を質,新規性,多様性の3次元に分解する評価分析フレームワークであるCreativePrismを提案する。
論文参考訳（メタデータ） (2025-10-23T00:22:10Z)
COIG-Writer: A High-Quality Dataset for Chinese Creative Writing with Thought Processes [83.84578306665976]
大規模な言語モデルは、創造的な文章、特に非英語の文脈において体系的な欠陥を示す。提案するCOIG-Writerは,多種多様なアウトプットと,その基盤となる思考プロセスの両方をキャプチャする,中国のクリエイティブな文章データセットである。
論文参考訳（メタデータ） (2025-10-16T15:01:19Z)
Galton's Law of Mediocrity: Why Large Language Models Regress to the Mean and Fail at Creativity in Advertising [1.073832573999766]
大規模言語モデル (LLM) は、しばしば安全で汎用的な言い回しをデフォルトとして、流動的なテキストを生成する。本稿では,この傾向をGalton-style regression to the mean in languageとして定式化し,広告コンセプトにおける創造性ストレステストを用いて評価する。
論文参考訳（メタデータ） (2025-09-30T04:29:41Z)
Death of the Novel(ty): Beyond n-Gram Novelty as a Metric for Textual Creativity [29.58419742230708]
N-gramノベルティは、トレーニングデータ以外のテキストを生成する言語モデルの能力を評価するために広く利用されている。我々は,この創造性の概念とn-gramの新規性との関係を,人間とAIが生成したテキストの密読を通して検討する。我々は,n-gramの新規性は,専門家が判断する創造性と肯定的に関連しているのに対し,n-gramの新規性によるトップクァアタイル表現の91%は創造性とは判断されないことがわかった。
論文参考訳（メタデータ） (2025-09-26T17:59:05Z)
A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models [100.16387798660833]
オオギリゲーム(オオギリゲーム)は、ユーモアと連想的思考を必要とする創造的な仕事である。 LoTbenchはインタラクティブで因果性を考慮した評価フレームワークである。その結果、ほとんどのLLMは制約された創造性を示すが、LLMと人間の間の性能格差は克服できないことがわかった。
論文参考訳（メタデータ） (2025-01-25T09:11:15Z)
Art or Artifice? Large Language Models and the False Promise of Creativity [53.04834589006685]
本稿では,創造性を製品として評価するTorrance Test of Creative Writing (TTCW)を提案する。 TTCWは14のバイナリテストで構成されており、Fluency、Flexibility、Originality、Elaborationの3次元に分かれている。分析の結果,LPM生成したストーリーはプロのストーリーよりもTTCWが3～10倍少ないことが判明した。
論文参考訳（メタデータ） (2023-09-25T22:02:46Z)
Testing the Ability of Language Models to Interpret Figurative Language [69.59943454934799]
比喩的・比喩的な言語は言論において一般的である。現代の言語モデルが非リテラルなフレーズをどの程度解釈できるかについては、未解決の疑問が残る。ウィノグラードスタイルの非文字言語理解タスクであるFig-QAを紹介する。
論文参考訳（メタデータ） (2022-04-26T23:42:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。