論文の概要: MT Metrics Correlate with Human Ratings of Simultaneous Speech
Translation
- arxiv url: http://arxiv.org/abs/2211.08633v2
- Date: Thu, 1 Jun 2023 15:00:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-03 01:12:50.712349
- Title: MT Metrics Correlate with Human Ratings of Simultaneous Speech
Translation
- Title(参考訳): MTメトリクスと同時音声翻訳の人間のレーティングの関係
- Authors: Dominik Mach\'a\v{c}ek, Ond\v{r}ej Bojar, Raj Dabre
- Abstract要約: 本研究では,CR(Continuous Ratings)とオフライン機械翻訳評価指標の相関分析を行った。
本研究は,オフラインのメトリクスがCRとよく相関していることを明らかにし,同時に機械翻訳を評価するために確実に使用できることを示した。
SSTの現在の品質レベルを考えると、これらの指標はCRのプロキシとして利用することができ、大規模な人的評価の必要性を軽減することができると結論付けている。
- 参考スコア(独自算出の注目度): 10.132491257235024
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: There have been several meta-evaluation studies on the correlation between
human ratings and offline machine translation (MT) evaluation metrics such as
BLEU, chrF2, BertScore and COMET. These metrics have been used to evaluate
simultaneous speech translation (SST) but their correlations with human ratings
of SST, which has been recently collected as Continuous Ratings (CR), are
unclear. In this paper, we leverage the evaluations of candidate systems
submitted to the English-German SST task at IWSLT 2022 and conduct an extensive
correlation analysis of CR and the aforementioned metrics. Our study reveals
that the offline metrics are well correlated with CR and can be reliably used
for evaluating machine translation in simultaneous mode, with some limitations
on the test set size. We conclude that given the current quality levels of SST,
these metrics can be used as proxies for CR, alleviating the need for large
scale human evaluation. Additionally, we observe that correlations of the
metrics with translation as a reference is significantly higher than with
simultaneous interpreting, and thus we recommend the former for reliable
evaluation.
- Abstract(参考訳): BLEU、chrF2、BertScore、COMETなど、人間の評価とオフライン機械翻訳(MT)評価の相関に関するメタ評価研究がいくつか行われている。
これらの指標は同時音声翻訳(SST)の評価に用いられてきたが、最近CRとして収集されたSSTの人間評価との相関は明らかでない。
本稿では,IWSLT 2022における英独SSTタスクに提案される候補システムの評価を活用し,CRと上記のメトリクスの広範な相関分析を行う。
本研究は、オフラインメトリクスがCRとよく相関しており、テストセットサイズに制限のある同時モードで機械翻訳を評価するために確実に使用できることを示した。
SSTの現在の品質レベルを考えると、これらの指標はCRのプロキシとして利用することができ、大規模な人的評価の必要性を軽減することができる。
また, 同時解釈よりも, 基準値と翻訳値の相関が有意に高いことを観察し, 信頼性の高い評価のために前者を推薦する。
関連論文リスト
- Evaluating Text Style Transfer Evaluation: Are There Any Reliable Metrics? [9.234136424254261]
テキストスタイル転送(テキストスタイルトランスファー、英: Text Style Transfer、TST)は、テキストを変換して特定のスタイルを反映し、元のコンテンツを保存するタスクである。
人間の評価は理想的であるが、他の自然言語処理(NLP)タスクと同様にコストがかかる。
本稿では,TST評価のためのNLPタスクから,既存のメトリクスと新しいメトリクスのセットについて検討する。
論文 参考訳(メタデータ) (2025-02-07T07:39:17Z) - Beyond Correlation: Interpretable Evaluation of Machine Translation Metrics [46.71836180414362]
本稿では,機械翻訳(MT)メトリクスの解釈可能な評価フレームワークを提案する。
このフレームワーク内では、データフィルタリングと翻訳の再ランク付けユースケースのプロキシとして機能する2つのシナリオでメトリクスを評価する。
また、DA+SQMガイドラインに従って、手動でキュレートしたデータの信頼性に関する懸念も提起する。
論文 参考訳(メタデータ) (2024-10-07T16:42:10Z) - Guardians of the Machine Translation Meta-Evaluation: Sentinel Metrics Fall In! [80.3129093617928]
毎年、機械翻訳会議(WMT)において、メトリクス共有タスクオーガナイザは、機械翻訳(MT)メトリクスのメタ評価を行う。
この研究は、現在WMTで採用されているメタ評価フレームワークに関する2つの問題を強調し、メトリクスランキングへの影響を評価する。
本稿では,メタ評価プロセスの正確性,堅牢性,公正性を精査するために設計されたセンチネルメトリクスの概念を紹介する。
論文 参考訳(メタデータ) (2024-08-25T13:29:34Z) - MT-Ranker: Reference-free machine translation evaluation by inter-system
ranking [14.188948302661933]
WMT Shared Metrics Task benchmarks DARR20, MQM20, MQM21。
MT-Rankerは、参照なしおよび参照ベースラインに対する最先端のマークである。
論文 参考訳(メタデータ) (2024-01-30T15:30:03Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - Measuring Uncertainty in Translation Quality Evaluation (TQE) [62.997667081978825]
本研究は,翻訳テキストのサンプルサイズに応じて,信頼区間を精度良く推定する動機づけた研究を行う。
我々はベルヌーイ統計分布モデリング (BSDM) とモンテカルロサンプリング分析 (MCSA) の手法を適用した。
論文 参考訳(メタデータ) (2021-11-15T12:09:08Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z) - BLEU might be Guilty but References are not Innocent [34.817010352734]
我々は,参照を収集し,その価値を自動評価で比較するための異なる手法について検討する。
典型的参照が多様性に乏しく、翻訳言語を中心にして、パラフレーズ化タスクを開発することに動機づけられた。
提案手法は,WMT 2019英語をドイツ語に投稿するだけでなく,バックトランスレーションやAPE拡張MT出力に対しても高い相関性を示す。
論文 参考訳(メタデータ) (2020-04-13T16:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。