論文の概要: DEMETR: Diagnosing Evaluation Metrics for Translation
- arxiv url: http://arxiv.org/abs/2210.13746v1
- Date: Tue, 25 Oct 2022 03:25:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 14:41:30.504908
- Title: DEMETR: Diagnosing Evaluation Metrics for Translation
- Title(参考訳): DEMETR:翻訳のための評価指標の診断
- Authors: Marzena Karpinska and Nishant Raj and Katherine Thai and Yixiao Song
and Ankita Gupta and Mohit Iyyer
- Abstract要約: 我々は、英語31K例の診断データセットであるDEMETRをリリースする。
学習指標はDEMETRの文字列ベースの指標よりもかなり優れていることがわかった。
- 参考スコア(独自算出の注目度): 21.25704103403547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While machine translation evaluation metrics based on string overlap (e.g.,
BLEU) have their limitations, their computations are transparent: the BLEU
score assigned to a particular candidate translation can be traced back to the
presence or absence of certain words. The operations of newer learned metrics
(e.g., BLEURT, COMET), which leverage pretrained language models to achieve
higher correlations with human quality judgments than BLEU, are opaque in
comparison. In this paper, we shed light on the behavior of these learned
metrics by creating DEMETR, a diagnostic dataset with 31K English examples
(translated from 10 source languages) for evaluating the sensitivity of MT
evaluation metrics to 35 different linguistic perturbations spanning semantic,
syntactic, and morphological error categories. All perturbations were carefully
designed to form minimal pairs with the actual translation (i.e., differ in
only one aspect). We find that learned metrics perform substantially better
than string-based metrics on DEMETR. Additionally, learned metrics differ in
their sensitivity to various phenomena (e.g., BERTScore is sensitive to
untranslated words but relatively insensitive to gender manipulation, while
COMET is much more sensitive to word repetition than to aspectual changes). We
publicly release DEMETR to spur more informed future development of machine
translation evaluation metrics
- Abstract(参考訳): 文字列オーバーラップに基づく機械翻訳評価指標(例えばBLEU)には制限があるが、それらの計算は透明である:特定の候補翻訳に割り当てられたBLEUスコアは、特定の単語の存在や欠落に遡ることができる。
新しい学習指標(BLEURTやCOMETなど)の操作は、事前訓練された言語モデルを利用して、BLEUよりも高い品質判断を達成しているため、比較には不透明である。
本稿では, MT評価指標の感度を意味的, 構文的, 形態的誤りのカテゴリにまたがる35種類の言語摂動に対して評価するための, 31K の英語例(ソース言語から転写された)を用いた診断データセット DEMETR を作成することにより, これらの学習指標の挙動を明らかにした。
すべての摂動は、実際の翻訳と最小のペアを形成するように慎重に設計されている(つまり、1つの側面だけが異なる)。
学習指標はDEMETRの文字列ベースの指標よりもかなり優れていることがわかった。
さらに、学習されたメトリクスは様々な現象に対する感度が異なる(例えば、BERTScoreは翻訳されていない単語に敏感であるが、性別操作には比較的敏感であるのに対して、COMETはアスペクト的変化よりも単語反復に敏感である)。
我々はDeMETRを公開し、機械翻訳評価メトリクスのさらなる情報開発を促進する
関連論文リスト
- Syntactic Language Change in English and German: Metrics, Parsers, and Convergences [56.47832275431858]
本論文は,過去160年間の議会討論のコーパスを用いて,英語とドイツ語の統語的言語変化のダイアクロニックな傾向を考察する。
私たちは、広く使われているStanford Coreと、新しい4つの選択肢を含む5つの依存関係をベースとしています。
文長分布の尾部では,構文的尺度の変化が頻繁であることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-18T11:46:16Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - BLEU Meets COMET: Combining Lexical and Neural Metrics Towards Robust
Machine Translation Evaluation [12.407789866525079]
文レベルの特徴や単語レベルのタグなど,トレーニング中に追加情報を使用することで,トレーニングされた指標が,特定の問題のある現象で翻訳をペナルティ化する能力を向上させることを示す。
文レベルの特徴や単語レベルのタグなど,トレーニング中に追加情報を使用することで,トレーニングされた指標が,特定の問題のある現象で翻訳をペナルティ化する能力を向上させることを示す。
論文 参考訳(メタデータ) (2023-05-30T15:50:46Z) - The Inside Story: Towards Better Understanding of Machine Translation
Neural Evaluation Metrics [8.432864879027724]
我々は、いくつかの神経説明可能性法を開発し比較し、最先端の微調整ニューラルネットワークメトリクスの解釈の有効性を実証する。
本研究は,これらのメトリクスが,翻訳誤りに直接起因するトークンレベルの情報を活用することを明らかにした。
論文 参考訳(メタデータ) (2023-05-19T16:42:17Z) - BMX: Boosting Natural Language Generation Metrics with Explainability [23.8476163398993]
BMX: 説明責任を伴う自然言語生成メトリクスの強化は、メトリクスのパフォーマンスを高めるために説明を明示的に活用します。
本テストでは,MTおよび要約データセット間の複数のメトリクスの改善を示す。
論文 参考訳(メタデータ) (2022-12-20T17:41:18Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - ACES: Translation Accuracy Challenge Sets for Evaluating Machine
Translation Metrics [2.48769664485308]
機械翻訳(MT)メトリクスは、毎年人間の判断との相関を改善している。
MTにおける精度誤差に直面する際の計量挙動について検討することが重要である。
我々は、単語/文字レベルでの単純な摂動から、談話や実世界の知識に基づくより複雑なエラーまで、68の現象からなる翻訳精度挑戦セットであるACESをキュレートする。
論文 参考訳(メタデータ) (2022-10-27T16:59:02Z) - Not All Errors are Equal: Learning Text Generation Metrics using
Stratified Error Synthesis [79.18261352971284]
人間のアノテーションを必要とせずに、人間の判断と高い相関関係を持つモデルベースの計量であるSESCOREを紹介する。
既存の指標に対してSESCOREを評価し,そのスコアと人間の評価との関係を比較検討した。
SESCOREは、人間による注釈付きトレーニングデータを受け取らず、最高の教師付きメトリックCOMETに匹敵するパフォーマンスを達成している。
論文 参考訳(メタデータ) (2022-10-10T22:30:26Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。