論文の概要: Difficulty-Aware Machine Translation Evaluation
- arxiv url: http://arxiv.org/abs/2107.14402v1
- Date: Fri, 30 Jul 2021 02:45:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-02 19:09:14.423750
- Title: Difficulty-Aware Machine Translation Evaluation
- Title(参考訳): 機械翻訳の難易度評価
- Authors: Runzhe Zhan, Xuebo Liu, Derek F. Wong, Lidia S. Chao
- Abstract要約: 本稿では,新しい難易度対応機械翻訳評価指標を提案する。
ほとんどのMTシステムで予測できない翻訳は難解なものとして扱われ、最終的なスコア関数に大きな重みが割り当てられる。
提案手法は,MTシステムすべてが非常に競争力がある場合でも良好に機能する。
- 参考スコア(独自算出の注目度): 19.973201669851626
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The high-quality translation results produced by machine translation (MT)
systems still pose a huge challenge for automatic evaluation. Current MT
evaluation pays the same attention to each sentence component, while the
questions of real-world examinations (e.g., university examinations) have
different difficulties and weightings. In this paper, we propose a novel
difficulty-aware MT evaluation metric, expanding the evaluation dimension by
taking translation difficulty into consideration. A translation that fails to
be predicted by most MT systems will be treated as a difficult one and assigned
a large weight in the final score function, and conversely. Experimental
results on the WMT19 English-German Metrics shared tasks show that our proposed
method outperforms commonly used MT metrics in terms of human correlation. In
particular, our proposed method performs well even when all the MT systems are
very competitive, which is when most existing metrics fail to distinguish
between them. The source code is freely available at
https://github.com/NLP2CT/Difficulty-Aware-MT-Evaluation.
- Abstract(参考訳): 機械翻訳(MT)システムによる高品質な翻訳結果は,現在でも自動評価において大きな課題となっている。
現在のmt評価は各文の構成要素に同じ注意を払っているが、実世界の試験(例えば大学試験)の質問は困難さと重み付けが異なる。
本稿では,翻訳難易度を考慮に入れて評価次元を拡大する,新しい難易度対応mt評価指標を提案する。
ほとんどのMTシステムでは予測できない翻訳は難しいものとして扱われ、最終的なスコア関数において大きな重みが割り当てられ、逆に扱われる。
WMT19の英独共同作業における実験結果から,提案手法は人的相関の点から,一般的なMT指標よりも優れていた。
特に,提案手法は,すべてのMTシステムが非常に競争力がある場合でも良好に動作し,既存の測定値の区別に失敗する。
ソースコードはhttps://github.com/NLP2CT/Difficulty-Aware-MT-Evaluationで無償公開されている。
関連論文リスト
- Cyber Risks of Machine Translation Critical Errors : Arabic Mental Health Tweets as a Case Study [3.8779763612314637]
本稿では,MTの共通利用に関わる倫理的・安全性上の問題に言及するために,機械翻訳クリティカルエラーの真正データセットを提案する。
このデータセットは、重要なエラータイプを手動で注釈付けしたアラビアのメンタルヘルスポストの誤訳を含む。
また、一般的に使われている品質指標が重大なエラーをペナルティにしないことを示すとともに、研究者のさらなる注意を喚起する重要な問題として強調する。
論文 参考訳(メタデータ) (2024-05-19T20:24:51Z) - MT-Ranker: Reference-free machine translation evaluation by inter-system
ranking [14.188948302661933]
WMT Shared Metrics Task benchmarks DARR20, MQM20, MQM21。
MT-Rankerは、参照なしおよび参照ベースラインに対する最先端のマークである。
論文 参考訳(メタデータ) (2024-01-30T15:30:03Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - Discourse Centric Evaluation of Machine Translation with a Densely
Annotated Parallel Corpus [82.07304301996562]
本稿では,江らが導入した大規模並列コーパスBWBに基づいて,リッチな談話アノテーションを用いた新しいデータセットを提案する。
ソース言語とターゲット言語の談話構造と類似点と相違点について検討する。
我々はMT出力が人間の翻訳と基本的に異なることを発見した。
論文 参考訳(メタデータ) (2023-05-18T17:36:41Z) - Bring More Attention to Syntactic Symmetry for Automatic Postediting of
High-Quality Machine Translations [4.217162744375792]
本稿では, APE モデルが対象言語に対する理解を深めることが期待される正規化の言語動機付け手法を提案する。
実験結果から,提案手法は高品位MTにおける最先端アーキテクチャの APE 品質向上に有効であることが示された。
論文 参考訳(メタデータ) (2023-05-17T20:25:19Z) - Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models [57.80514758695275]
機械翻訳(MT)の品質を評価するために,大規模言語モデル(LLM)を用いることで,システムレベルでの最先端のパフォーマンスを実現する。
我々はtextbftexttError Analysis Prompting (EAPrompt) と呼ばれる新しいプロンプト手法を提案する。
本手法は,多次元品質指標 (MQM) とtextitproduces を用いて,システムレベルとセグメントレベルの両方で説明可能かつ信頼性の高いMT評価を行う。
論文 参考訳(メタデータ) (2023-03-24T05:05:03Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - Tackling Ambiguity with Images: Improved Multimodal Machine Translation
and Contrastive Evaluation [72.6667341525552]
本稿では,ニューラルアダプターとガイド付き自己注意機構を用いた,強いテキストのみのMTモデルに基づく新しいMT手法を提案する。
また,不明瞭な文とその翻訳が可能なコントラスト型多モーダル翻訳評価セットであるCoMMuTEについても紹介する。
提案手法は, 標準英語-フランス語, 英語-ドイツ語, 英語-チェコ語のベンチマークにおいて, 強いテキストのみのモデルと比較して, 競争力のある結果が得られる。
論文 参考訳(メタデータ) (2022-12-20T10:18:18Z) - HOPE: A Task-Oriented and Human-Centric Evaluation Framework Using
Professional Post-Editing Towards More Effective MT Evaluation [0.0]
本研究では,機械翻訳出力のためのタスク指向・人間中心評価フレームワークHOPEを紹介する。
一般的に発生するエラーの種類は限られており、各翻訳ユニットにエラー重大度レベルを反映する誤差ペナルティポイント(EPP)の幾何学的進行を伴うスコアリングモデルを使用する。
このアプローチには、異なるシステムからの完全なMT出力を測定および比較する能力、品質に対する人間の認識を示す能力、MT出力を高品質にするために必要となる労力の即時見積、低コストで高速なアプリケーション、より高いIRRなど、いくつかの重要な利点がある。
論文 参考訳(メタデータ) (2021-12-27T18:47:43Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。