論文の概要: DiscoX: Benchmarking Discourse-Level Translation task in Expert Domains
- arxiv url: http://arxiv.org/abs/2511.10984v1
- Date: Fri, 14 Nov 2025 06:09:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.447129
- Title: DiscoX: Benchmarking Discourse-Level Translation task in Expert Domains
- Title(参考訳): DiscoX:エキスパートドメインにおける談話レベル翻訳タスクのベンチマーク
- Authors: Xiying Zhao, Zhoufutu Wen, Zhixuan Chen, Jingzhe Ding, Jianpeng Jiao, Shuai Li, Xi Li, Danni Liang, Shengda Long, Qianqian Liu, Xianbo Wu, Hongwan Gao, Xiang Gao, Liang Hu, Jiashuo Liu, Mengyun Liu, Weiran Shi, Chenghao Yang, Qianyu Yang, Xuanliang Zhang, Ge Zhang, Wenhao Huang,
- Abstract要約: 談話レベルおよび専門家レベルの中国語-英語翻訳のための新しいベンチマークであるDiscoXを紹介する。
7つのドメインから200通の専門的なキュレートされたテキストで構成され、平均的な長さは1700通を超える。
また, 精度, 流速, 適切性にまたがる詳細な自動アセスメントを提供する参照フリーシステムであるMetric-Sを開発した。
- 参考スコア(独自算出の注目度): 31.476690423712466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The evaluation of discourse-level translation in expert domains remains inadequate, despite its centrality to knowledge dissemination and cross-lingual scholarly communication. While these translations demand discourse-level coherence and strict terminological precision, current evaluation methods predominantly focus on segment-level accuracy and fluency. To address this limitation, we introduce DiscoX, a new benchmark for discourse-level and expert-level Chinese-English translation. It comprises 200 professionally-curated texts from 7 domains, with an average length exceeding 1700 tokens. To evaluate performance on DiscoX, we also develop Metric-S, a reference-free system that provides fine-grained automatic assessments across accuracy, fluency, and appropriateness. Metric-S demonstrates strong consistency with human judgments, significantly outperforming existing metrics. Our experiments reveal a remarkable performance gap: even the most advanced LLMs still trail human experts on these tasks. This finding validates the difficulty of DiscoX and underscores the challenges that remain in achieving professional-grade machine translation. The proposed benchmark and evaluation system provide a robust framework for more rigorous evaluation, facilitating future advancements in LLM-based translation.
- Abstract(参考訳): 専門領域における談話レベルの翻訳の評価は、知識の普及と言語横断的な学術コミュニケーションの中心性にもかかわらず、依然として不十分である。
これらの翻訳では、談話レベルのコヒーレンスと厳密な用語的精度が要求されるが、現在の評価手法は主にセグメントレベルの精度と流布に焦点を当てている。
この制限に対処するために、談話レベルおよび専門家レベルの中国語-英語翻訳のための新しいベンチマークであるDiscoXを紹介する。
7つのドメインから200通の専門的なキュレートされたテキストで構成され、平均的な長さは1700通を超える。
また,DiscoXの性能を評価するために,精度,流布度,適切性など,詳細な自動評価を行う参照フリーシステムであるMetric-Sを開発した。
Metric-Sは、人間の判断と強い一貫性を示し、既存のメトリクスを著しく上回る。
もっとも先進的なLSMでさえも、これらのタスクに関して人間の専門家を追い越しているのです。
この発見は、DiscoXの難しさを証明し、プロフェッショナルグレードの機械翻訳の達成における課題を浮き彫りにする。
提案するベンチマークと評価システムは,より厳密な評価を行うための堅牢なフレームワークを提供する。
関連論文リスト
- DITING: A Multi-Agent Evaluation Framework for Benchmarking Web Novel Translation [31.1561882673283]
DIINGは、Webノベル翻訳のための最初の総合的な評価フレームワークである。
AgentEvalは専門家による検討をシミュレートし、語彙オーバーラップを超えて翻訳品質を評価する。
誤りラベルとスカラー品質スコアを付加した300文対のメタ評価データセットであるMetricAlignを開発した。
論文 参考訳(メタデータ) (2025-10-10T08:10:10Z) - Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering [68.3400058037817]
本稿では,TREQA(Translation Evaluation via Question-Answering)について紹介する。
我々は,TREQAが最先端のニューラルネットワークとLLMベースのメトリクスより優れていることを示し,代用段落レベルの翻訳をランク付けする。
論文 参考訳(メタデータ) (2025-04-10T09:24:54Z) - Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models [57.80514758695275]
機械翻訳(MT)の品質を評価するために,大規模言語モデル(LLM)を用いることで,システムレベルでの最先端のパフォーマンスを実現する。
我々はtextbftexttError Analysis Prompting (EAPrompt) と呼ばれる新しいプロンプト手法を提案する。
本手法は,多次元品質指標 (MQM) とtextitproduces を用いて,システムレベルとセグメントレベルの両方で説明可能かつ信頼性の高いMT評価を行う。
論文 参考訳(メタデータ) (2023-03-24T05:05:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。