論文の概要: Extending Automatic Machine Translation Evaluation to Book-Length Documents
- arxiv url: http://arxiv.org/abs/2509.17249v1
- Date: Sun, 21 Sep 2025 21:46:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.183746
- Title: Extending Automatic Machine Translation Evaluation to Book-Length Documents
- Title(参考訳): 書籍長文書への自動機械翻訳評価の拡張
- Authors: Kuang-Da Wang, Shuoyang Ding, Chao-Han Huck Yang, Ping-Chun Hsieh, Wen-Chih Peng, Vitaly Lavrukhin, Boris Ginsburg,
- Abstract要約: SEGALEは、既存の自動メトリクスを長期文書翻訳に拡張する評価スキームである。
提案手法では,文書レベルの評価が従来不可能であった。
実験の結果,提案手法は既存の長文文書評価方式よりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 69.84659107448768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite Large Language Models (LLMs) demonstrating superior translation performance and long-context capabilities, evaluation methodologies remain constrained to sentence-level assessment due to dataset limitations, token number restrictions in metrics, and rigid sentence boundary requirements. We introduce SEGALE, an evaluation scheme that extends existing automatic metrics to long-document translation by treating documents as continuous text and applying sentence segmentation and alignment methods. Our approach enables previously unattainable document-level evaluation, handling translations of arbitrary length generated with document-level prompts while accounting for under-/over-translations and varied sentence boundaries. Experiments show our scheme significantly outperforms existing long-form document evaluation schemes, while being comparable to evaluations performed with groundtruth sentence alignments. Additionally, we apply our scheme to book-length texts and newly demonstrate that many open-weight LLMs fail to effectively translate documents at their reported maximum context lengths.
- Abstract(参考訳): 大言語モデル(LLM)は、翻訳性能と長文の能力を示すが、評価手法は、データセットの制限による文レベルの評価、メトリクスのトークン番号の制限、厳密な文境界要件に制約される。
文書を連続的なテキストとして扱い、文章分割とアライメント手法を適用することで、既存の自動メトリクスを長期文書翻訳に拡張する評価スキームSEGALEを導入する。
提案手法は文書レベルのプロンプトで生成した任意の長さの翻訳を下・上・下・下・下・下・下・下・下・下・下・下・下・下・下・下)で処理し,文書レベルの評価を行う。
実験の結果,本手法は文アライメントによる評価と同等でありながら,既存の長文文書評価手法よりも優れていた。
さらに本手法を書籍長のテキストに適用し,多くのオープンウェイト LLM が報告された最大文脈長の文書を効果的に翻訳できないことを新たに示す。
関連論文リスト
- Same evaluation, more tokens: On the effect of input length for machine translation evaluation using Large Language Models [6.525298236457623]
大規模言語モデル(LLM)は、MQMエラースパンアノテーションを介して、信頼性が高く解釈可能な文レベルの翻訳評価器として機能する。
評価はテキスト長に不変であることを示し、入力の粒度に関わらず一貫した誤差スパンを生成する。
我々は、粒度整合プロンプト、FSP(Focus Sentence Prompting)、LCMと評価タスクの整合性を改善するための微調整アプローチなど、いくつかの戦略を評価する。
論文 参考訳(メタデータ) (2025-05-03T09:30:26Z) - Multilingual Contextualization of Large Language Models for Document-Level Machine Translation [28.08957305340726]
大規模言語モデル (LLM) は文レベルの機械翻訳において高い性能を示している。
高品質な文書レベルのデータを対象とした微調整により,LLMに基づく長期文書翻訳を改善する手法を提案する。
提案手法は,文書から文書への直接翻訳やチャンクレベルの翻訳など,複数の翻訳パラダイムをサポートする。
論文 参考訳(メタデータ) (2025-04-16T14:52:22Z) - DelTA: An Online Document-Level Translation Agent Based on Multi-Level Memory [96.35468670508476]
大規模言語モデル(LLM)のための文書レバレッジ翻訳エージェントであるDelTAを紹介する。
DelTAは、様々な粒度とスパンにまたがる情報を格納するマルチレベルメモリ構造を備えている。
実験結果から,DelTAは翻訳の一貫性や品質において,強いベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2024-10-10T17:30:09Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z) - Enhancing Document-level Translation of Large Language Model via
Translation Mixed-instructions [24.025242477280983]
機械翻訳のための既存の大きな言語モデル(LLM)は、典型的には文レベルの翻訳命令に基づいて微調整される。
この課題は、文レベルのカバレッジの問題から生じ、文書のその後の文は転写されないままである。
様々な長さの文レベルと文書レベルの翻訳命令を微調整LLMに結合する手法を提案する。
論文 参考訳(メタデータ) (2024-01-16T03:28:26Z) - LongDocFACTScore: Evaluating the Factuality of Long Document Abstractive Summarisation [28.438103177230477]
長文要約の事実整合性を評価するための自動測度の有効性を評価する。
本稿では,文書要約データセットの評価に適した新しい評価フレームワークであるLongDocFACTScoreを提案する。
論文 参考訳(メタデータ) (2023-09-21T19:54:54Z) - Document-level Neural Machine Translation with Document Embeddings [82.4684444847092]
この研究は、複数の形式の文書埋め込みの観点から、詳細な文書レベルのコンテキストを活用することに重点を置いている。
提案する文書認識NMTは,大域的および局所的な文書レベルの手がかりをソース端に導入することにより,Transformerベースラインを強化するために実装されている。
論文 参考訳(メタデータ) (2020-09-16T19:43:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。