論文の概要: Estimating Machine Translation Difficulty
- arxiv url: http://arxiv.org/abs/2508.10175v1
- Date: Wed, 13 Aug 2025 20:22:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.109053
- Title: Estimating Machine Translation Difficulty
- Title(参考訳): 機械翻訳困難度の推定
- Authors: Lorenzo Proietti, Stefano Perrella, Vilém Zouhar, Roberto Navigli, Tom Kocmi,
- Abstract要約: 翻訳難易度推定のタスクを形式化し、その翻訳の期待品質に基づいてテキストの難易度を定義する。
難易度評価のための新しい指標を導入し,それを用いてベースラインと新規アプローチの両方を評価する。
- 参考スコア(独自算出の注目度): 47.154819516227974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine translation quality has began achieving near-perfect translations in some setups. These high-quality outputs make it difficult to distinguish between state-of-the-art models and to identify areas for future improvement. Automatically identifying texts where machine translation systems struggle holds promise for developing more discriminative evaluations and guiding future research. We formalize the task of translation difficulty estimation, defining a text's difficulty based on the expected quality of its translations. We introduce a new metric to evaluate difficulty estimators and use it to assess both baselines and novel approaches. Finally, we demonstrate the practical utility of difficulty estimators by using them to construct more challenging machine translation benchmarks. Our results show that dedicated models (dubbed Sentinel-src) outperform both heuristic-based methods (e.g. word rarity or syntactic complexity) and LLM-as-a-judge approaches. We release two improved models for difficulty estimation, Sentinel-src-24 and Sentinel-src-25, which can be used to scan large collections of texts and select those most likely to challenge contemporary machine translation systems.
- Abstract(参考訳): 機械翻訳の品質は、いくつかの設定でほぼ完璧な翻訳を実現し始めた。
これらの高品質な出力は、最先端のモデルを区別し、将来の改善のための領域を特定するのを難しくする。
機械翻訳システムが苦労するテキストを自動的に識別することは、より差別的な評価を開発し、将来の研究を導くことを約束する。
翻訳難易度推定のタスクを形式化し、その翻訳の期待品質に基づいてテキストの難易度を定義する。
難易度評価のための新しい指標を導入し,それを用いてベースラインと新規アプローチの両方を評価する。
最後に,より難易度の高い機械翻訳ベンチマークを構築することによる難易度推定の実用性を示す。
以上の結果から,専有モデル(Sentinel-src)はヒューリスティックな手法(単語のラミリティや構文的複雑性など)とLCM-as-a-judgeアプローチの両方より優れていた。
難易度推定のための2つの改良されたモデルであるSentinel-src-24とSentinel-src-25をリリースする。
関連論文リスト
- Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering [68.3400058037817]
本稿では,TREQA(Translation Evaluation via Question-Answering)について紹介する。
我々は,TREQAが最先端のニューラルネットワークとLLMベースのメトリクスより優れていることを示し,代用段落レベルの翻訳をランク付けする。
論文 参考訳(メタデータ) (2025-04-10T09:24:54Z) - Translation Canvas: An Explainable Interface to Pinpoint and Analyze Translation Systems [16.102196839755823]
本稿では,翻訳システムの性能をピンポイントし解析するための説明可能なインタフェースであるTranslation Canvasを紹介する。
エラースパンを説明付きで強調し、システムの予測を選択的に表示することで、きめ細かい分析をサポートする。
人間による評価によると、Translation CanvasはCOMETやSacreBLEUパッケージよりも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-07T16:54:18Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - Easy Guided Decoding in Providing Suggestions for Interactive Machine
Translation [14.615314828955288]
我々は、新しい制約付きデコーディングアルゴリズム、すなわちPrefix Suffix Guided Decoding (PSGD)を提案する。
PSGDは平均で10.87ドルのBLEUと8.62ドルのBLEUをWeTSとWMT 2022のTranslation Suggestionデータセットで改善している。
論文 参考訳(メタデータ) (2022-11-14T03:40:02Z) - Rethinking Round-Trip Translation for Machine Translation Evaluation [44.83568796515321]
ラウンドトリップ翻訳が参照なしで自動評価に利用できるという驚くべき発見を報告する。
ラウンドトリップ翻訳が複数の機械翻訳評価タスクに有用であることを示す。
論文 参考訳(メタデータ) (2022-09-15T15:06:20Z) - Computer Assisted Translation with Neural Quality Estimation and
Automatic Post-Editing [18.192546537421673]
本稿では,機械翻訳出力の品質推定と自動編集のためのエンドツーエンドのディープラーニングフレームワークを提案する。
我々のゴールは、誤り訂正の提案を提供することであり、解釈可能なモデルにより、人間の翻訳者の負担を軽減することである。
論文 参考訳(メタデータ) (2020-09-19T00:29:00Z) - It's Easier to Translate out of English than into it: Measuring Neural
Translation Difficulty by Cross-Mutual Information [90.35685796083563]
クロスミューチュアル情報(英: Cross-mutual information、XMI)は、機械翻訳の難易度に関する非対称情報理論の指標である。
XMIは、ほとんどのニューラルマシン翻訳モデルの確率的性質を利用する。
本稿では,現代ニューラル翻訳システムを用いた言語間翻訳の難易度に関する最初の体系的および制御的な研究について述べる。
論文 参考訳(メタデータ) (2020-05-05T17:38:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。