論文の概要: Align-then-Slide: A complete evaluation framework for Ultra-Long Document-Level Machine Translation
- arxiv url: http://arxiv.org/abs/2509.03809v1
- Date: Thu, 04 Sep 2025 01:50:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.013563
- Title: Align-then-Slide: A complete evaluation framework for Ultra-Long Document-Level Machine Translation
- Title(参考訳): Align-then-Slide:Ultra-Long Document-Level Machine Translationのための完全な評価フレームワーク
- Authors: Jiaxin Guo, Daimeng Wei, Yuanchang Luo, Xiaoyu Chen, Zhanglin Wu, Huan Yang, Hengchao Shang, Zongyao Li, Zhiqiang Rao, Jinlong Yang, Hao Yang,
- Abstract要約: ウルトラロングドク-mtの完全な評価フレームワークであるtextittextbfAlign-then-Slide を導入する。
Alignの段階では、文レベルのソースターゲット対応を自動的に推測し、ターゲットを元の文番号に合わせるように再構築する。
n-Chunkスライディング評価段階において,多粒度評価のための1-,2-,3-,4-chunkの平均値を算出する。
- 参考スコア(独自算出の注目度): 26.418216341998953
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) have ushered in a new era for document-level machine translation (\textit{doc}-mt), yet their whole-document outputs challenge existing evaluation methods that assume sentence-by-sentence alignment. We introduce \textit{\textbf{Align-then-Slide}}, a complete evaluation framework for ultra-long doc-mt. In the Align stage, we automatically infer sentence-level source-target correspondences and rebuild the target to match the source sentence number, resolving omissions and many-to-one/one-to-many mappings. In the n-Chunk Sliding Evaluate stage, we calculate averaged metric scores under 1-, 2-, 3- and 4-chunk for multi-granularity assessment. Experiments on the WMT benchmark show a Pearson correlation of 0.929 between our method with expert MQM rankings. On a newly curated real-world test set, our method again aligns closely with human judgments. Furthermore, preference data produced by Align-then-Slide enables effective CPO training and its direct use as a reward model for GRPO, both yielding translations preferred over a vanilla SFT baseline. The results validate our framework as an accurate, robust, and actionable evaluation tool for doc-mt systems.
- Abstract(参考訳): 大規模言語モデル (LLMs) は文書レベルの機械翻訳の新しい時代 (\textit{doc}-mt) に定着しているが、文書全体の出力は文ごとのアライメントを仮定する既存の評価手法に挑戦する。
超長期ドク-mtの完全な評価フレームワークである \textit{\textbf{Align-then-Slide}} を紹介する。
Align の段階では、文レベルのソースターゲット対応を自動的に推測し、ターゲットを元の文番号に合わせるように再構築し、省略を解消し、多対一のマッピングを行う。
n-Chunkスライディング評価段階において,多粒度評価のための1-,2-,3-,4-chunkの平均値を算出する。
WMTベンチマークの実験では、Pearsonの相関関係は、我々の手法とMQMランキングとの相関関係を示す。
新たにキュレートされた実世界のテストセットでは,本手法は人間の判断と密接に一致している。
さらに、Align-then-Slideによって生成された嗜好データにより、有効なCPOトレーニングとGRPOの報酬モデルとしての使用が可能になり、どちらもバニラSFTベースラインよりも好ましい翻訳が得られる。
その結果,ドクmtシステムの正確で堅牢で実用的な評価ツールとして,我々のフレームワークを検証した。
関連論文リスト
- HiMATE: A Hierarchical Multi-Agent Framework for Machine Translation Evaluation [38.67031685302134]
HiMATEは機械翻訳評価のための階層型マルチエージェントフレームワークである。
MQMエラー型に基づく階層型マルチエージェントシステムを構築し,サブタイプエラーの詳細な評価を可能にする。
経験的に、HiMATEは、人間によるアライメント評価の実行において、さまざまなデータセット間の競争ベースラインよりも優れています。
論文 参考訳(メタデータ) (2025-05-22T06:24:08Z) - Fine-Grained and Multi-Dimensional Metrics for Document-Level Machine Translation [15.987448306012167]
大規模言語モデル(LLM)は機械翻訳(MT)を含む様々なNLPタスクに優れている。
本研究は,文書レベル翻訳(docMT)における命令調整型LLMの本質的能力について検討する。
論文 参考訳(メタデータ) (2024-10-28T11:49:58Z) - Unify word-level and span-level tasks: NJUNLP's Participation for the
WMT2023 Quality Estimation Shared Task [59.46906545506715]
我々は、WMT 2023 Quality Estimation (QE)共有タスクにNJUNLPチームを紹介する。
私たちのチームは2つのサブタスクすべてで英語とドイツ語のペアの予測を提出しました。
我々のモデルは、単語レベルと細粒度エラースパン検出サブタスクの両方において、英語とドイツ語で最高の結果を得た。
論文 参考訳(メタデータ) (2023-09-23T01:52:14Z) - Evaluating Factual Consistency of Texts with Semantic Role Labeling [3.1776833268555134]
本稿では,テキスト要約を念頭に設計した参照不要評価指標SRLScoreを紹介する。
最終事実度スコアは、調整可能なスコアリング機構により算出される。
英語の要約データセットにおける人間の判断との相関は、SRLScoreが最先端の手法と競合していることを示している。
論文 参考訳(メタデータ) (2023-05-22T17:59:42Z) - Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models [57.80514758695275]
機械翻訳(MT)の品質を評価するために,大規模言語モデル(LLM)を用いることで,システムレベルでの最先端のパフォーマンスを実現する。
我々はtextbftexttError Analysis Prompting (EAPrompt) と呼ばれる新しいプロンプト手法を提案する。
本手法は,多次元品質指標 (MQM) とtextitproduces を用いて,システムレベルとセグメントレベルの両方で説明可能かつ信頼性の高いMT評価を行う。
論文 参考訳(メタデータ) (2023-03-24T05:05:03Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation [64.9546787488337]
本稿では、Few-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。
このデータセットは、英語からポルトガル語と中国語の2つの地域変種へのプロの翻訳で構成されている。
論文 参考訳(メタデータ) (2022-10-01T05:02:04Z) - Using Context in Neural Machine Translation Training Objectives [23.176247496139574]
バッチレベルの文書を用いた文書レベルのメトリクスを用いたニューラルネットワーク翻訳(NMT)トレーニングを提案する。
トレーニングは、シーケンスメトリクスよりもドキュメントレベルのメトリクスの方が堅牢であることを示す。
論文 参考訳(メタデータ) (2020-05-04T13:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。