論文の概要: Estimating Machine Translation Difficulty
- arxiv url: http://arxiv.org/abs/2508.10175v2
- Date: Thu, 28 Aug 2025 17:54:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 13:55:31.650615
- Title: Estimating Machine Translation Difficulty
- Title(参考訳): 機械翻訳困難度の推定
- Authors: Lorenzo Proietti, Stefano Perrella, Vilém Zouhar, Roberto Navigli, Tom Kocmi,
- Abstract要約: 翻訳難易度推定のタスクを形式化し、その翻訳の期待品質に基づいてテキストの難易度を定義する。
本稿では,機械翻訳のためのより困難なベンチマークを構築するために,難易度推定器の実用性を示す。
難易度推定のための2つの改良されたモデル、Sentinel-src-24とSentinel-src-25をリリースする。
- 参考スコア(独自算出の注目度): 48.659971048116766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine translation quality has steadily improved over the years, achieving near-perfect translations in recent benchmarks. These high-quality outputs make it difficult to distinguish between state-of-the-art models and to identify areas for future improvement. In this context, automatically identifying texts where machine translation systems struggle holds promise for developing more discriminative evaluations and guiding future research. In this work, we address this gap by formalizing the task of translation difficulty estimation, defining a text's difficulty based on the expected quality of its translations. We introduce a new metric to evaluate difficulty estimators and use it to assess both baselines and novel approaches. Finally, we demonstrate the practical utility of difficulty estimators by using them to construct more challenging benchmarks for machine translation. Our results show that dedicated models outperform both heuristic-based methods and LLM-as-a-judge approaches, with Sentinel-src achieving the best performance. Thus, we release two improved models for difficulty estimation, Sentinel-src-24 and Sentinel-src-25, which can be used to scan large collections of texts and select those most likely to challenge contemporary machine translation systems.
- Abstract(参考訳): 近年、機械翻訳の品質は着実に向上し、最近のベンチマークではほぼ完璧な翻訳を実現している。
これらの高品質な出力は、最先端のモデルを区別し、将来の改善のための領域を特定するのを難しくする。
この文脈では、機械翻訳システムが苦労するテキストを自動的に識別することは、より差別的な評価を開発し、将来の研究を導くことを約束する。
本研究では,翻訳難易度推定のタスクを形式化し,翻訳の期待品質に基づいてテキストの難易度を定義することで,このギャップに対処する。
難易度評価のための新しい指標を導入し,それを用いてベースラインと新規アプローチの両方を評価する。
最後に, 機械翻訳のためのより困難なベンチマークを構築するために, 難易度推定器の実用性を示す。
以上の結果から,専用モデルはヒューリスティックな手法とLCM-as-a-judgeアプローチの両方より優れており,Sentinel-srcは最高の性能を実現していることがわかった。
そこで,2つの改良されたモデルであるSentinel-src-24とSentinel-src-25を作成した。
関連論文リスト
- Recovered in Translation: Efficient Pipeline for Automated Translation of Benchmarks and Datasets [2.0199251985015434]
データセットとベンチマークのスケーラブルで高品質な翻訳を可能にするために,完全に自動化されたフレームワークを提案する。
このアプローチを適用して、人気のあるベンチマークとデータセットを8つの東欧と南欧の言語に翻訳します。
論文 参考訳(メタデータ) (2026-02-25T18:58:25Z) - Automatic Machine Translation Detection Using a Surrogate Multilingual Translation Model [4.750257527930005]
本稿では,人文と機械翻訳文を区別する新しい手法を提案する。
実験結果から,本手法は最先端技術よりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-11-04T19:59:25Z) - Evaluating Language Translation Models by Playing Telephone [5.02470728447561]
異なる文書の長さとアプリケーションドメインの翻訳評価のためのトレーニングデータを生成する教師なし手法を提案する。
モデル回転と言語翻訳の両手法を用いて,機械的に生成したテキストに基づいて学習した評価システムの評価を行った。
論文 参考訳(メタデータ) (2025-09-23T22:01:52Z) - Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering [68.3400058037817]
本稿では,TREQA(Translation Evaluation via Question-Answering)について紹介する。
我々は,TREQAが最先端のニューラルネットワークとLLMベースのメトリクスより優れていることを示し,代用段落レベルの翻訳をランク付けする。
論文 参考訳(メタデータ) (2025-04-10T09:24:54Z) - Alleviating Distribution Shift in Synthetic Data for Machine Translation Quality Estimation [55.73341401764367]
合成QEデータの分散シフトを緩和する新しいフレームワークであるDCSQEを紹介する。
DCSQEは、参照、すなわち翻訳監督信号を使用して、生成プロセスとアノテーションプロセスの両方をガイドする。
実験により、DCSQEは教師なし設定と教師なし設定の両方でSOTAベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2025-02-27T10:11:53Z) - Translation Canvas: An Explainable Interface to Pinpoint and Analyze Translation Systems [16.102196839755823]
本稿では,翻訳システムの性能をピンポイントし解析するための説明可能なインタフェースであるTranslation Canvasを紹介する。
エラースパンを説明付きで強調し、システムの予測を選択的に表示することで、きめ細かい分析をサポートする。
人間による評価によると、Translation CanvasはCOMETやSacreBLEUパッケージよりも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-07T16:54:18Z) - Advancing Translation Preference Modeling with RLHF: A Step Towards
Cost-Effective Solution [57.42593422091653]
人間のフィードバックによる強化学習の活用による翻訳品質の向上について検討する。
強力な言語能力を持つ報酬モデルは、翻訳品質の微妙な違いをより敏感に学習することができる。
論文 参考訳(メタデータ) (2024-02-18T09:51:49Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - Quality Estimation of Machine Translated Texts based on Direct Evidence
from Training Data [0.0]
MTシステムのトレーニングデータとして使用される並列コーパスは,MTシステムによって生成された翻訳の質を推定するための直接的な手がかりを有することを示す。
実験の結果,本手法は純粋にデータ駆動型機械翻訳システムによって生成された翻訳の品質評価に有効であることがわかった。
論文 参考訳(メタデータ) (2023-06-27T11:52:28Z) - Easy Guided Decoding in Providing Suggestions for Interactive Machine
Translation [14.615314828955288]
我々は、新しい制約付きデコーディングアルゴリズム、すなわちPrefix Suffix Guided Decoding (PSGD)を提案する。
PSGDは平均で10.87ドルのBLEUと8.62ドルのBLEUをWeTSとWMT 2022のTranslation Suggestionデータセットで改善している。
論文 参考訳(メタデータ) (2022-11-14T03:40:02Z) - Rethinking Round-Trip Translation for Machine Translation Evaluation [44.83568796515321]
ラウンドトリップ翻訳が参照なしで自動評価に利用できるという驚くべき発見を報告する。
ラウンドトリップ翻訳が複数の機械翻訳評価タスクに有用であることを示す。
論文 参考訳(メタデータ) (2022-09-15T15:06:20Z) - Computer Assisted Translation with Neural Quality Estimation and
Automatic Post-Editing [18.192546537421673]
本稿では,機械翻訳出力の品質推定と自動編集のためのエンドツーエンドのディープラーニングフレームワークを提案する。
我々のゴールは、誤り訂正の提案を提供することであり、解釈可能なモデルにより、人間の翻訳者の負担を軽減することである。
論文 参考訳(メタデータ) (2020-09-19T00:29:00Z) - It's Easier to Translate out of English than into it: Measuring Neural
Translation Difficulty by Cross-Mutual Information [90.35685796083563]
クロスミューチュアル情報(英: Cross-mutual information、XMI)は、機械翻訳の難易度に関する非対称情報理論の指標である。
XMIは、ほとんどのニューラルマシン翻訳モデルの確率的性質を利用する。
本稿では,現代ニューラル翻訳システムを用いた言語間翻訳の難易度に関する最初の体系的および制御的な研究について述べる。
論文 参考訳(メタデータ) (2020-05-05T17:38:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。