論文の概要: Quality Estimation Reranking for Document-Level Translation
- arxiv url: http://arxiv.org/abs/2510.08870v1
- Date: Fri, 10 Oct 2025 00:00:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.898062
- Title: Quality Estimation Reranking for Document-Level Translation
- Title(参考訳): 文書レベル翻訳における品質評価
- Authors: Krzysztof Mrozinski, Minji Kang, Ahmed Khota, Vincent Michael Sutanto, Giovanni Gatti De Giacomo,
- Abstract要約: 品質評価(QE)は、生成した翻訳のプールから最適な候補を採点し、選択することで機械翻訳(MT)を改善することを目的としている。
様々な学習および大規模言語モデル(LLM)に基づくQE指標を用いて,文書レベルの(典型的な文レベルの)翻訳よりも,文書レベルでのQE再ランク付け性能を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Quality estimation (QE) reranking is a form of quality-aware decoding which aims to improve machine translation (MT) by scoring and selecting the best candidate from a pool of generated translations. While known to be effective at the sentence level, its application to the increasingly prominent domain of document-level translation remains underexplored. In this work, we evaluate QE reranking performance on document-level (rather than the typical sentence-level) translation, using various learned and large language model (LLM)-based QE metrics. We find that with our best learned metric, SLIDE, BLEURT-20 scores improve by +2.00 with only two candidates, and by +5.09 with 32, across both decoder-only LLM models and encoder-decoder neural machine translation (NMT) models. Using the best LLM-based metric, GEMBA-DA, gains of +1.63 and +4.30 are achieved under the same conditions. Although gains shrink with longer inputs, reranking with 32 candidates yields improvements of +2.34 (SLIDE) and +1.40 (GEMBA-DA) on our longest documents (512-1024 source tokens). These findings demonstrate the practical value of document-level QE, with minimal runtime overhead given suitable translation models and hardware.
- Abstract(参考訳): 品質推定(QE)は、機械翻訳(MT)の改善を目的とした品質認識復号法の一種であり、生成された翻訳のプールから最適な候補を採点し、選択することを目的としている。
文レベルでは有効であることが知られているが、文書レベルの翻訳の顕著な領域への適用はいまだ探索されていない。
本研究では,様々な学習および大規模言語モデル(LLM)に基づくQE指標を用いて,文書レベル(通常の文レベルではなく)翻訳におけるQEのランク付け性能を評価する。
SLIDEでは、BLEURT-20スコアは2つの候補で+2.00、32で+5.09、デコーダのみのLLMモデルとエンコーダ-デコーダニューラルマシン変換(NMT)モデルで+2.00向上している。
最高のLCMベースの計量であるGEMBA-DAを用いて、+1.63と+4.30のゲインが同じ条件下で達成される。
より長い入力でゲインは縮小するが、32の候補で再ランクインすると、最長の文書(512-1024のソーストークン)で+2.34(SLIDE)と+1.40(GEMBA-DA)の改善が得られる。
これらの結果は、適切な翻訳モデルとハードウェアが与えられた場合、ランタイムオーバーヘッドを最小限に抑えた文書レベルのQEの実践的価値を示している。
関連論文リスト
- Quality-Aware Decoding: Unifying Quality Estimation and Decoding [12.843274390224853]
本稿では,部分翻訳を確実に評価できる新しいトークンレベルQEモデルを提案する。
次に、品質認識復号のためのQEモデルを統合する復号戦略を提案する。
私たちのアプローチは文書翻訳タスクにおいて大きなメリットをもたらします。
論文 参考訳(メタデータ) (2025-02-12T16:49:52Z) - Fine-Grained and Multi-Dimensional Metrics for Document-Level Machine Translation [15.987448306012167]
大規模言語モデル(LLM)は機械翻訳(MT)を含む様々なNLPタスクに優れている。
本研究は,文書レベル翻訳(docMT)における命令調整型LLMの本質的能力について検討する。
論文 参考訳(メタデータ) (2024-10-28T11:49:58Z) - Unify word-level and span-level tasks: NJUNLP's Participation for the
WMT2023 Quality Estimation Shared Task [59.46906545506715]
我々は、WMT 2023 Quality Estimation (QE)共有タスクにNJUNLPチームを紹介する。
私たちのチームは2つのサブタスクすべてで英語とドイツ語のペアの予測を提出しました。
我々のモデルは、単語レベルと細粒度エラースパン検出サブタスクの両方において、英語とドイツ語で最高の結果を得た。
論文 参考訳(メタデータ) (2023-09-23T01:52:14Z) - MTUncertainty: Assessing the Need for Post-editing of Machine Translation Outputs by Fine-tuning OpenAI LLMs [6.822926897514793]
TQEは機械翻訳(MT)と人間翻訳(HT)の両方の品質を基準翻訳なしで評価する上で重要である。
この目的のために,最先端の大規模言語モデル (LLM) が利用できるかを検討する。
OpenAIモデルを最先端技術として捉え、バイナリ分類タスクとしてTQEにアプローチします。
論文 参考訳(メタデータ) (2023-07-31T21:13:30Z) - On Search Strategies for Document-Level Neural Machine Translation [51.359400776242786]
文書レベルのニューラルネットワーク変換(NMT)モデルは、ドキュメント全体にわたってより一貫性のある出力を生成する。
そこで本研究では,デコードにおける文脈認識翻訳モデルをどのように活用するか,という質問に答えることを目的としている。
論文 参考訳(メタデータ) (2023-06-08T11:30:43Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。