論文の概要: Embarrassingly Easy Document-Level MT Metrics: How to Convert Any
Pretrained Metric Into a Document-Level Metric
- arxiv url: http://arxiv.org/abs/2209.13654v1
- Date: Tue, 27 Sep 2022 19:42:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 16:47:58.232356
- Title: Embarrassingly Easy Document-Level MT Metrics: How to Convert Any
Pretrained Metric Into a Document-Level Metric
- Title(参考訳): 文書レベルのMTメトリックス:事前訓練済みのメトリックをドキュメントレベルのメトリックに変換する方法
- Authors: Giorgos Vernikos, Brian Thompson, Prashant Mathur, Marcello Federico
- Abstract要約: 文書レベルでコンテキストを組み込むための事前学習メトリクスを拡張する手法を提案する。
その結果, 実験条件の約85%において, 文章レベルの指標よりも高い結果が得られた。
我々の実験結果は、私たちの最初の仮説を支持し、メトリクスの単純な拡張によってコンテキストを活用できることを示す。
- 参考スコア(独自算出の注目度): 15.646714712131148
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We hypothesize that existing sentence-level machine translation (MT) metrics
become less effective when the human reference contains ambiguities. To verify
this hypothesis, we present a very simple method for extending pretrained
metrics to incorporate context at the document level. We apply our method to
three popular metrics, BERTScore, Prism, and COMET, and to the reference free
metric COMET-QE. We evaluate the extended metrics on the WMT 2021 metrics
shared task using the provided MQM annotations. Our results show that the
extended metrics outperform their sentence-level counterparts in about 85% of
the tested conditions, when excluding results on low-quality human references.
Additionally, we show that our document-level extension of COMET-QE
dramatically improves its accuracy on discourse phenomena tasks, outperforming
a dedicated baseline by up to 6.1%. Our experimental results support our
initial hypothesis and show that a simple extension of the metrics permits them
to take advantage of context to resolve ambiguities in the reference.
- Abstract(参考訳): 既存の文レベルの機械翻訳(mt)の指標は、人間の参照が曖昧さを含む場合、効果が低くなると仮定する。
この仮説を検証するために,事前学習されたメトリクスを文書レベルでコンテキストを組み込むための非常に簡単な方法を提案する。
提案手法はBERTScore, Prism, COMETの3つの一般的なメトリクスに適用し, 基準自由度 COMET-QE に適用する。
提供するMQMアノテーションを用いて、WMT 2021メトリクス共有タスクの拡張メトリクスを評価する。
その結果,低品質な人文参照の結果を除いた場合,試験条件の約85%で文レベルの指標よりも優れていた。
さらに,文書レベルのCOMET-QEの拡張により,談話現象のタスクの精度が劇的に向上し,専用ベースラインを最大6.1%上回ることを示す。
我々の実験結果は最初の仮説を支持し、メトリクスの単純な拡張により、参照の曖昧さを解決するために文脈を活用することができることを示した。
関連論文リスト
- Beyond Correlation: Interpretable Evaluation of Machine Translation Metrics [46.71836180414362]
本稿では,機械翻訳(MT)メトリクスの解釈可能な評価フレームワークを提案する。
このフレームワーク内では、データフィルタリングと翻訳の再ランク付けユースケースのプロキシとして機能する2つのシナリオでメトリクスを評価する。
また、DA+SQMガイドラインに従って、手動でキュレートしたデータの信頼性に関する懸念も提起する。
論文 参考訳(メタデータ) (2024-10-07T16:42:10Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - Improving Metrics for Speech Translation [1.2891210250935146]
本稿では,パラレルパラフレージング(textPara_textboth$)について紹介する。
提案手法が一般的なメトリクスに適用された場合,人間の品質知覚との相関性を大幅に改善できることが示唆された。
論文 参考訳(メタデータ) (2023-05-22T11:01:38Z) - MENLI: Robust Evaluation Metrics from Natural Language Inference [26.53850343633923]
最近提案されたBERTベースのテキスト生成評価指標は、標準ベンチマークでは良好に機能するが、敵攻撃には弱い。
自然言語推論(NLI)に基づく評価指標を開発する。
我々のNLIベースのメトリクスは、最近のBERTベースのメトリクスよりも攻撃に対してより堅牢であることを示す。
論文 参考訳(メタデータ) (2022-08-15T16:30:14Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - On the Intrinsic and Extrinsic Fairness Evaluation Metrics for
Contextualized Language Representations [74.70957445600936]
様々な自然言語処理タスクの公平度を測定するために、複数のメトリクスが導入された。
これらの指標は,(1)下流アプリケーションにおけるフェアネスを評価する遠因性指標と,(2)上流言語表現モデルにおけるフェアネスを推定する遠因性指標の2つのカテゴリに大別することができる。
論文 参考訳(メタデータ) (2022-03-25T22:17:43Z) - QAFactEval: Improved QA-Based Factual Consistency Evaluation for
Summarization [116.56171113972944]
QAベースのメトリクスのコンポーネントを慎重に選択することは、パフォーマンスにとって重要であることを示す。
提案手法は,最良性能のエンテーメントに基づく測定値を改善し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-12-16T00:38:35Z) - Towards Question-Answering as an Automatic Metric for Evaluating the
Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。
提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文 参考訳(メタデータ) (2020-10-01T15:33:09Z) - Using Context in Neural Machine Translation Training Objectives [23.176247496139574]
バッチレベルの文書を用いた文書レベルのメトリクスを用いたニューラルネットワーク翻訳(NMT)トレーニングを提案する。
トレーニングは、シーケンスメトリクスよりもドキュメントレベルのメトリクスの方が堅牢であることを示す。
論文 参考訳(メタデータ) (2020-05-04T13:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。