論文の概要: MT Metrics Correlate with Human Ratings of Simultaneous Speech
Translation
- arxiv url: http://arxiv.org/abs/2211.08633v1
- Date: Wed, 16 Nov 2022 03:03:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 13:52:04.888609
- Title: MT Metrics Correlate with Human Ratings of Simultaneous Speech
Translation
- Title(参考訳): MTメトリクスと同時音声翻訳の人間のレーティングの関係
- Authors: Dominik Mach\'a\v{c}ek, Ond\v{r}ej Bojar, Raj Dabre
- Abstract要約: 同時音声翻訳(CR)の人間格付けがBLEU, chrF2, COMETなどの指標と相関しているかどうかは不明である。
IWSLT 2022において、英独同時音声翻訳タスクにおいて、CRの広範な相関分析と、上記の自動測定値を用いて候補システムの評価を行う。
本研究は,オフラインMTメトリクスがCRと相関し,同時モードでの機械翻訳評価に確実に使用できることを示した。
- 参考スコア(独自算出の注目度): 10.132491257235024
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: There have been several studies on the correlation between human ratings and
metrics such as BLEU, chrF2 and COMET in machine translation. Most, if not all
consider full-sentence translation. It is unclear whether human ratings of
simultaneous speech translation Continuous Rating (CR) correlate with these
metrics or not. Therefore, we conduct an extensive correlation analysis of CR
and the aforementioned automatic metrics on evaluations of candidate systems at
English-German simultaneous speech translation task at IWSLT 2022. Our studies
reveal that the offline MT metrics correlate with CR and can be reliably used
for evaluating machine translation in the simultaneous mode, with some
limitations on the test set size. This implies that automatic metrics can be
used as proxies for CR, thereby alleviating the need for human evaluation.
- Abstract(参考訳): 機械翻訳における人間のレーティングとBLEU, chrF2, COMETなどの指標との相関に関するいくつかの研究がある。
ほとんどの場合、全文翻訳を考慮しない。
同時音声翻訳(CR)の人間格付けがこれらの指標と相関しているかどうかは不明である。
そこで我々は,IWSLT 2022における英独同時音声翻訳タスクにおいて,CRと前述の自動測定値の相関分析を行った。
本研究は,オフラインMTメトリクスがCRと相関し,テストセットサイズに制限のある同時モードでの機械翻訳評価に確実に使用できることを示した。
これは、自動メトリクスがCRのプロキシとして使用できるため、人間の評価の必要性が軽減されることを意味する。
関連論文リスト
- Beyond Correlation: Interpretable Evaluation of Machine Translation Metrics [46.71836180414362]
本稿では,機械翻訳(MT)メトリクスの解釈可能な評価フレームワークを提案する。
このフレームワーク内では、データフィルタリングと翻訳の再ランク付けユースケースのプロキシとして機能する2つのシナリオでメトリクスを評価する。
また、DA+SQMガイドラインに従って、手動でキュレートしたデータの信頼性に関する懸念も提起する。
論文 参考訳(メタデータ) (2024-10-07T16:42:10Z) - Guardians of the Machine Translation Meta-Evaluation: Sentinel Metrics Fall In! [80.3129093617928]
毎年、機械翻訳会議(WMT)において、メトリクス共有タスクオーガナイザは、機械翻訳(MT)メトリクスのメタ評価を行う。
この研究は、現在WMTで採用されているメタ評価フレームワークに関する2つの問題を強調し、メトリクスランキングへの影響を評価する。
本稿では,メタ評価プロセスの正確性,堅牢性,公正性を精査するために設計されたセンチネルメトリクスの概念を紹介する。
論文 参考訳(メタデータ) (2024-08-25T13:29:34Z) - MT-Ranker: Reference-free machine translation evaluation by inter-system
ranking [14.188948302661933]
WMT Shared Metrics Task benchmarks DARR20, MQM20, MQM21。
MT-Rankerは、参照なしおよび参照ベースラインに対する最先端のマークである。
論文 参考訳(メタデータ) (2024-01-30T15:30:03Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - Measuring Uncertainty in Translation Quality Evaluation (TQE) [62.997667081978825]
本研究は,翻訳テキストのサンプルサイズに応じて,信頼区間を精度良く推定する動機づけた研究を行う。
我々はベルヌーイ統計分布モデリング (BSDM) とモンテカルロサンプリング分析 (MCSA) の手法を適用した。
論文 参考訳(メタデータ) (2021-11-15T12:09:08Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z) - BLEU might be Guilty but References are not Innocent [34.817010352734]
我々は,参照を収集し,その価値を自動評価で比較するための異なる手法について検討する。
典型的参照が多様性に乏しく、翻訳言語を中心にして、パラフレーズ化タスクを開発することに動機づけられた。
提案手法は,WMT 2019英語をドイツ語に投稿するだけでなく,バックトランスレーションやAPE拡張MT出力に対しても高い相関性を示す。
論文 参考訳(メタデータ) (2020-04-13T16:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。