Fugu-MT 論文翻訳(概要): MT Metrics Correlate with Human Ratings of Simultaneous Speech Translation

論文の概要: MT Metrics Correlate with Human Ratings of Simultaneous Speech Translation

arxiv url: http://arxiv.org/abs/2211.08633v1
Date: Wed, 16 Nov 2022 03:03:56 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-17 13:52:04.888609
Title: MT Metrics Correlate with Human Ratings of Simultaneous Speech Translation
Title（参考訳）: MTメトリクスと同時音声翻訳の人間のレーティングの関係
Authors: Dominik Mach\'a\v{c}ek, Ond\v{r}ej Bojar, Raj Dabre
Abstract要約: 同時音声翻訳(CR)の人間格付けがBLEU, chrF2, COMETなどの指標と相関しているかどうかは不明である。 IWSLT 2022において、英独同時音声翻訳タスクにおいて、CRの広範な相関分析と、上記の自動測定値を用いて候補システムの評価を行う。本研究は,オフラインMTメトリクスがCRと相関し,同時モードでの機械翻訳評価に確実に使用できることを示した。
参考スコア（独自算出の注目度）: 10.132491257235024
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: There have been several studies on the correlation between human ratings and metrics such as BLEU, chrF2 and COMET in machine translation. Most, if not all consider full-sentence translation. It is unclear whether human ratings of simultaneous speech translation Continuous Rating (CR) correlate with these metrics or not. Therefore, we conduct an extensive correlation analysis of CR and the aforementioned automatic metrics on evaluations of candidate systems at English-German simultaneous speech translation task at IWSLT 2022. Our studies reveal that the offline MT metrics correlate with CR and can be reliably used for evaluating machine translation in the simultaneous mode, with some limitations on the test set size. This implies that automatic metrics can be used as proxies for CR, thereby alleviating the need for human evaluation.
Abstract（参考訳）: 機械翻訳における人間のレーティングとBLEU, chrF2, COMETなどの指標との相関に関するいくつかの研究がある。ほとんどの場合、全文翻訳を考慮しない。同時音声翻訳(CR)の人間格付けがこれらの指標と相関しているかどうかは不明である。そこで我々は,IWSLT 2022における英独同時音声翻訳タスクにおいて,CRと前述の自動測定値の相関分析を行った。本研究は,オフラインMTメトリクスがCRと相関し,テストセットサイズに制限のある同時モードでの機械翻訳評価に確実に使用できることを示した。これは、自動メトリクスがCRのプロキシとして使用できるため、人間の評価の必要性が軽減されることを意味する。

関連論文リスト

Beyond Literal Mapping: Benchmarking and Improving Non-Literal Translation Evaluation [57.11989521509119]
本稿では,特殊なサブエージェントを起動するリフレクティブコアエージェントを中心に,エージェント翻訳評価フレームワークを提案する。実験の結果、RATEの有効性が示され、現在の測定値と比較して少なくとも3.2メタスコアの改善が達成された。
論文参考訳（メタデータ） (2026-01-12T09:03:42Z)
A Critical Study of Automatic Evaluation in Sign Language Translation [17.083206782232185]
テキストベースのメトリクスが手話変換(SLT)の出力の質を確実に捉えることができるかは、まだ不明である。 BLEU, chrF, ROUGE, BLEURT, G-Eval や GEMBA などの大規模言語モデルに基づく評価器の6つの指標を解析した。
論文参考訳（メタデータ） (2025-10-29T11:57:03Z)
Evaluating Text Style Transfer Evaluation: Are There Any Reliable Metrics? [9.234136424254261]
テキスト・スタイル・トランスファー(テキスト・スタイル・トランスファー、英: Text style transfer、TST)は、テキストを変換して、元のコンテンツを保持しながら特定のスタイルを反映するタスクである。人間の評価は理想的であるが、他の自然言語処理(NLP)タスクと同様にコストがかかる。本稿では,TST評価のためのNLPタスクから,既存のメトリクスと新しいメトリクスのセットについて検討する。
論文参考訳（メタデータ） (2025-02-07T07:39:17Z)
Beyond Correlation: Interpretable Evaluation of Machine Translation Metrics [46.71836180414362]
本稿では,機械翻訳(MT)メトリクスの解釈可能な評価フレームワークを提案する。このフレームワーク内では、データフィルタリングと翻訳の再ランク付けユースケースのプロキシとして機能する2つのシナリオでメトリクスを評価する。また、DA+SQMガイドラインに従って、手動でキュレートしたデータの信頼性に関する懸念も提起する。
論文参考訳（メタデータ） (2024-10-07T16:42:10Z)
Guardians of the Machine Translation Meta-Evaluation: Sentinel Metrics Fall In! [80.3129093617928]
毎年、機械翻訳会議(WMT)において、メトリクス共有タスクオーガナイザは、機械翻訳(MT)メトリクスのメタ評価を行う。この研究は、現在WMTで採用されているメタ評価フレームワークに関する2つの問題を強調し、メトリクスランキングへの影響を評価する。本稿では,メタ評価プロセスの正確性,堅牢性,公正性を精査するために設計されたセンチネルメトリクスの概念を紹介する。
論文参考訳（メタデータ） (2024-08-25T13:29:34Z)
MT-Ranker: Reference-free machine translation evaluation by inter-system ranking [14.188948302661933]
WMT Shared Metrics Task benchmarks DARR20, MQM20, MQM21。 MT-Rankerは、参照なしおよび参照ベースラインに対する最先端のマークである。
論文参考訳（メタデータ） (2024-01-30T15:30:03Z)
BLEURT Has Universal Translations: An Analysis of Automatic Metrics by Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。 BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文参考訳（メタデータ） (2023-07-06T16:59:30Z)
Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文参考訳（メタデータ） (2022-12-20T14:39:58Z)
Measuring Uncertainty in Translation Quality Evaluation (TQE) [62.997667081978825]
本研究は,翻訳テキストのサンプルサイズに応じて,信頼区間を精度良く推定する動機づけた研究を行う。我々はベルヌーイ統計分布モデリング (BSDM) とモンテカルロサンプリング分析 (MCSA) の手法を適用した。
論文参考訳（メタデータ） (2021-11-15T12:09:08Z)
On the Limitations of Cross-lingual Encoders as Exposed by Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文参考訳（メタデータ） (2020-05-03T22:10:23Z)
BLEU might be Guilty but References are not Innocent [34.817010352734]
我々は,参照を収集し,その価値を自動評価で比較するための異なる手法について検討する。典型的参照が多様性に乏しく、翻訳言語を中心にして、パラフレーズ化タスクを開発することに動機づけられた。提案手法は,WMT 2019英語をドイツ語に投稿するだけでなく,バックトランスレーションやAPE拡張MT出力に対しても高い相関性を示す。
論文参考訳（メタデータ） (2020-04-13T16:49:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。