論文の概要: DITING: A Multi-Agent Evaluation Framework for Benchmarking Web Novel Translation
- arxiv url: http://arxiv.org/abs/2510.09116v2
- Date: Mon, 13 Oct 2025 05:51:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 13:29:55.714342
- Title: DITING: A Multi-Agent Evaluation Framework for Benchmarking Web Novel Translation
- Title(参考訳): DIING: Webの新規翻訳をベンチマークするマルチエージェント評価フレームワーク
- Authors: Enze Zhang, Jiaying Wang, Mengxi Xiao, Jifei Liu, Ziyan Kuang, Rui Dong, Eric Dong, Sophia Ananiadou, Min Peng, Qianqian Xie,
- Abstract要約: DIINGは、Webノベル翻訳のための最初の総合的な評価フレームワークである。
AgentEvalは専門家による検討をシミュレートし、語彙オーバーラップを超えて翻訳品質を評価する。
誤りラベルとスカラー品質スコアを付加した300文対のメタ評価データセットであるMetricAlignを開発した。
- 参考スコア(独自算出の注目度): 31.1561882673283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have substantially advanced machine translation (MT), yet their effectiveness in translating web novels remains unclear. Existing benchmarks rely on surface-level metrics that fail to capture the distinctive traits of this genre. To address these gaps, we introduce DITING, the first comprehensive evaluation framework for web novel translation, assessing narrative and cultural fidelity across six dimensions: idiom translation, lexical ambiguity, terminology localization, tense consistency, zero-pronoun resolution, and cultural safety, supported by over 18K expert-annotated Chinese-English sentence pairs. We further propose AgentEval, a reasoning-driven multi-agent evaluation framework that simulates expert deliberation to assess translation quality beyond lexical overlap, achieving the highest correlation with human judgments among seven tested automatic metrics. To enable metric comparison, we develop MetricAlign, a meta-evaluation dataset of 300 sentence pairs annotated with error labels and scalar quality scores. Comprehensive evaluation of fourteen open, closed, and commercial models reveals that Chinese-trained LLMs surpass larger foreign counterparts, and that DeepSeek-V3 delivers the most faithful and stylistically coherent translations. Our work establishes a new paradigm for exploring LLM-based web novel translation and provides public resources to advance future research.
- Abstract(参考訳): 大規模言語モデル (LLM) は機械翻訳 (MT) がかなり進歩しているが、ウェブ小説の翻訳における有効性は未だ不明である。
既存のベンチマークは、このジャンルの特徴を捉えるのに失敗した表面レベルのメトリクスに依存している。
これらのギャップに対処するため,第1回ウェブノベル翻訳の総合的評価フレームワークであるDIINGを導入し,言語翻訳,語彙的曖昧性,用語的局所化,テンソル一貫性,ゼロ代名詞の解決,文化的安全性の6次元にわたる物語的・文化的忠実性を評価する。
さらに,語彙重なり以上の翻訳品質を評価するために,専門家による検討をシミュレートした推論駆動型マルチエージェント評価フレームワークであるAgentEvalを提案する。
距離比較を可能にするために,誤りラベルとスカラー品質スコアを付加した300文対のメタ評価データセットであるMetricAlignを開発した。
14のオープン、クローズド、商用モデルの総合的な評価は、中国で訓練されたLLMがより大きな外国のモデルを上回っ、DeepSeek-V3が最も忠実でスタイリッシュで一貫性のある翻訳を提供することを示している。
本研究は, LLMに基づくウェブ新語翻訳の新たなパラダイムを確立し, 今後の研究を進めるための公共資源を提供する。
関連論文リスト
- Languages Still Left Behind: Toward a Better Multilingual Machine Translation Benchmark [11.068031181100276]
我々は4つの言語(Asante Twi, Japanese, Jinghpaw, South Azerbaijani)のデータを研究する。
真の多言語評価に対するベンチマークの適合性の重大な欠点を明らかにする。
我々は、ドメイン汎用および文化的に中立なソーステキストを使用する多言語MTベンチマークを提唱する。
論文 参考訳(メタデータ) (2025-08-28T07:52:42Z) - MAS-LitEval : Multi-Agent System for Literary Translation Quality Assessment [5.703909513367545]
文学翻訳は、文化的ニュアンスと様式的な要素を保存する必要がある。
BLEUやMETEORといった従来のメトリクスは、語彙重なりに重点を置いているため、評価に失敗する。
言語モデル(LLM)を用いたマルチエージェントシステムMAS-LitEvalを提案する。
論文 参考訳(メタデータ) (2025-06-17T05:33:40Z) - Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering [68.3400058037817]
本稿では,TREQA(Translation Evaluation via Question-Answering)について紹介する。
我々は,TREQAが最先端のニューラルネットワークとLLMベースのメトリクスより優れていることを示し,代用段落レベルの翻訳をランク付けする。
論文 参考訳(メタデータ) (2025-04-10T09:24:54Z) - (Perhaps) Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts [56.7988577327046]
翻訳企業の役割と協調の実践をシミュレートする,新しいマルチエージェントフレームワークであるTransAgentsを紹介する。
本研究は,翻訳品質の向上,特にテキストの長文化におけるマルチエージェント協調の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2024-05-20T05:55:08Z) - Large language models effectively leverage document-level context for
literary translation, but critical errors persist [32.54546652197316]
大規模言語モデル(LLM)は、幅広い文レベルの翻訳データセット上での最先端技術と競合する。
我々は,Gpt-3.5 (text-davinci-003) LLM) を用いて文節全体を翻訳し,高品質な翻訳を行うという厳密な評価を通して示す。
論文 参考訳(メタデータ) (2023-04-06T17:27:45Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。