論文の概要: Multi-Dimensional Machine Translation Evaluation: Model Evaluation and Resource for Korean
- arxiv url: http://arxiv.org/abs/2403.12666v1
- Date: Tue, 19 Mar 2024 12:02:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 14:23:34.343800
- Title: Multi-Dimensional Machine Translation Evaluation: Model Evaluation and Resource for Korean
- Title(参考訳): 多次元機械翻訳評価 : 韓国のモデル評価と資源
- Authors: Dojun Park, Sebastian Padó,
- Abstract要約: 1200文のMQM評価ベンチマークを英語と韓国語で作成する。
参照なしのセットアップはスタイルのディメンションにおいて、それよりも優れています。
全体として、RemBERTは最も有望なモデルとして現れます。
- 参考スコア(独自算出の注目度): 7.843029855730508
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Almost all frameworks for the manual or automatic evaluation of machine translation characterize the quality of an MT output with a single number. An exception is the Multidimensional Quality Metrics (MQM) framework which offers a fine-grained ontology of quality dimensions for scoring (such as style, fluency, accuracy, and terminology). Previous studies have demonstrated the feasibility of MQM annotation but there are, to our knowledge, no computational models that predict MQM scores for novel texts, due to a lack of resources. In this paper, we address these shortcomings by (a) providing a 1200-sentence MQM evaluation benchmark for the language pair English-Korean and (b) reframing MT evaluation as the multi-task problem of simultaneously predicting several MQM scores using SOTA language models, both in a reference-based MT evaluation setup and a reference-free quality estimation (QE) setup. We find that reference-free setup outperforms its counterpart in the style dimension while reference-based models retain an edge regarding accuracy. Overall, RemBERT emerges as the most promising model. Through our evaluation, we offer an insight into the translation quality in a more fine-grained, interpretable manner.
- Abstract(参考訳): 機械翻訳のマニュアルまたは自動評価のためのほとんどのフレームワークは、単一の番号でMT出力の品質を特徴付ける。
例外としてMultidimensional Quality Metrics(MQM)フレームワークがある。
従来の研究では、MQMアノテーションが実現可能であることが実証されているが、リソース不足のため、新しいテキストに対するMQMスコアを予測する計算モデルはない。
本稿では,これらの問題点に対処する。
(a)英語と韓国語を合わせて1200文のMQM評価ベンチマークを提供する
b) MT評価は,参照ベースMT評価設定と参照フリー品質評価(QE)設定の両方において,SOTA言語モデルを用いて複数のMQMスコアを同時に予測するマルチタスク問題である。
参照なしのセットアップはスタイルの寸法においてそれよりも優れており、参照ベースモデルは精度に関するエッジを保持する。
全体として、RemBERTは最も有望なモデルとして現れます。
評価を通じて、よりきめ細かな解釈可能な方法で翻訳品質に関する洞察を提供する。
関連論文リスト
- Towards Zero-Shot Multimodal Machine Translation [64.9141931372384]
本稿では,マルチモーダル機械翻訳システムの学習において,完全教師付きデータの必要性を回避する手法を提案する。
我々の手法はZeroMMTと呼ばれ、2つの目的の混合で学習することで、強いテキストのみの機械翻訳(MT)モデルを適応させることである。
本手法が完全に教師付きトレーニングデータを持たない言語に一般化されることを証明するため,CoMMuTE評価データセットをアラビア語,ロシア語,中国語の3言語に拡張した。
論文 参考訳(メタデータ) (2024-07-18T15:20:31Z) - Error Span Annotation: A Balanced Approach for Human Evaluation of Machine Translation [48.080874541824436]
Error Spanを紹介します。
ESA - DAの継続的な評価と高レベルの評価を組み合わせる人間評価プロトコル。
MQM のマーキングのエラー重大度。
ESAは、高価なMQM専門家の必要なしに、同じ品質レベルでMQMよりも高速で安価なアノテーションを提供する。
論文 参考訳(メタデータ) (2024-06-17T14:20:47Z) - The Multi-Range Theory of Translation Quality Measurement: MQM scoring models and Statistical Quality Control [4.950563907958882]
2024年は、分析翻訳品質評価のための多次元品質指標フレームワークの10周年である。
本稿では,最新のMQM開発について詳述し,3つのサンプルサイズ範囲にわたる翻訳品質測定への普遍的アプローチを示す。
論文 参考訳(メタデータ) (2024-05-27T09:06:24Z) - Quality Estimation with $k$-nearest Neighbors and Automatic Evaluation for Model-specific Quality Estimation [14.405862891194344]
我々は, MTモデルのトレーニングデータから, $k$-nearest 隣人を用いて情報を抽出する,$k$NN-QE と呼ばれるモデル固有で教師なしQE手法を提案する。
モデル固有のQEのパフォーマンスの測定は、MT出力の品質スコアを提供するため、簡単ではない。
そこで本研究では,人為的な基準値ではなく,基準基準値からの品質スコアをゴールドスタンダードとして活用する自動評価手法を提案する。
論文 参考訳(メタデータ) (2024-04-27T23:52:51Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。
MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。
MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z) - Perturbation-based QE: An Explainable, Unsupervised Word-level Quality
Estimation Method for Blackbox Machine Translation [12.376309678270275]
摂動に基づくQEは、単に摂動入力元文上で出力されるMTシステムを分析することで機能する。
我々のアプローチは、教師付きQEよりも、翻訳における性別バイアスや単語センスの曖昧さの誤りを検出するのに優れている。
論文 参考訳(メタデータ) (2023-05-12T13:10:57Z) - Measuring Uncertainty in Translation Quality Evaluation (TQE) [62.997667081978825]
本研究は,翻訳テキストのサンプルサイズに応じて,信頼区間を精度良く推定する動機づけた研究を行う。
我々はベルヌーイ統計分布モデリング (BSDM) とモンテカルロサンプリング分析 (MCSA) の手法を適用した。
論文 参考訳(メタデータ) (2021-11-15T12:09:08Z) - Uncertainty-Aware Machine Translation Evaluation [0.716879432974126]
我々は,不確実性を考慮したMT評価を導入し,予測品質の信頼性を分析した。
QT21データセットとWMT20メトリクスタスクから,複数の言語ペア間での不確実性を考慮したMT評価手法の性能を比較した。
論文 参考訳(メタデータ) (2021-09-13T22:46:03Z) - Unsupervised Quality Estimation for Neural Machine Translation [63.38918378182266]
既存のアプローチでは、大量の専門家アノテートデータ、計算、トレーニング時間が必要です。
MTシステム自体以外に、トレーニングや追加リソースへのアクセスが不要なQEに対して、教師なしのアプローチを考案する。
我々は品質の人間の判断と非常によく相関し、最先端の教師付きQEモデルと競合する。
論文 参考訳(メタデータ) (2020-05-21T12:38:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。