論文の概要: USCORE: An Effective Approach to Fully Unsupervised Evaluation Metrics
for Machine Translation
- arxiv url: http://arxiv.org/abs/2202.10062v1
- Date: Mon, 21 Feb 2022 09:22:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-24 12:02:03.037953
- Title: USCORE: An Effective Approach to Fully Unsupervised Evaluation Metrics
for Machine Translation
- Title(参考訳): USCORE: 機械翻訳のための教師なし評価指標に対する効果的なアプローチ
- Authors: Jonas Belouadi and Steffen Eger
- Abstract要約: 本研究では,機械翻訳のための教師なし評価指標を開発する。
評価基準誘導, 並列コーパスマイニング, MTシステムの相似性と相乗効果を利用する。
私たちは、完全に教師なしのメトリクスが効果的であること、すなわち5つの評価データセットのうち4つで監督対象の競合に勝っていることを示しています。
- 参考スコア(独自算出の注目度): 23.381986209234157
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The vast majority of evaluation metrics for machine translation are
supervised, i.e., (i) assume the existence of reference translations, (ii) are
trained on human scores, or (iii) leverage parallel data. This hinders their
applicability to cases where such supervision signals are not available. In
this work, we develop fully unsupervised evaluation metrics. To do so, we
leverage similarities and synergies between evaluation metric induction,
parallel corpus mining, and MT systems. In particular, we use an unsupervised
evaluation metric to mine pseudo-parallel data, which we use to remap deficient
underlying vector spaces (in an iterative manner) and to induce an unsupervised
MT system, which then provides pseudo-references as an additional component in
the metric. Finally, we also induce unsupervised multilingual sentence
embeddings from pseudo-parallel data. We show that our fully unsupervised
metrics are effective, i.e., they beat supervised competitors on 4 out of our 5
evaluation datasets.
- Abstract(参考訳): 機械翻訳の評価基準の大部分が管理されている。
(i)参照翻訳の存在を前提とする。
(ii)人間のスコアで訓練する、または
(iii)並列データを活用する。
これにより、そのような監視信号が利用できないケースに適用できなくなる。
本研究では,教師なし評価指標の開発を行う。
そのため,評価指標の誘導,並列コーパスマイニング,MTシステムの相似性と相乗効果を利用する。
特に、疑似並列データのマイニングには教師なし評価指標を使用し、そこでは、(反復的な方法で)不十分な基底ベクトル空間をリマップし、教師なしMTシステムを誘導し、そのメトリクスに付加的なコンポーネントとして擬似参照を提供する。
最後に,疑似パラレルデータから教師なし多言語文埋め込みを誘導する。
5つの評価データセットのうち4つで、完全に教師なしのメトリクスが効果的であることを示す。
関連論文リスト
- Guardians of the Machine Translation Meta-Evaluation: Sentinel Metrics Fall In! [80.3129093617928]
毎年、機械翻訳会議(WMT)において、メトリクス共有タスクオーガナイザは、機械翻訳(MT)メトリクスのメタ評価を行う。
この研究は、現在WMTで採用されているメタ評価フレームワークに関する2つの問題を強調し、メトリクスランキングへの影響を評価する。
本稿では,メタ評価プロセスの正確性,堅牢性,公正性を精査するために設計されたセンチネルメトリクスの概念を紹介する。
論文 参考訳(メタデータ) (2024-08-25T13:29:34Z) - Evaluating Automatic Metrics with Incremental Machine Translation Systems [55.78547133890403]
商業機械翻訳からなるデータセットを導入し,12の翻訳方向から6年間にわたって収集した。
商業システムは時間とともに改善され、より最近の翻訳の好みに基づいて機械翻訳(MT)メトリクスを評価することができると仮定する。
論文 参考訳(メタデータ) (2024-07-03T17:04:17Z) - MT-Ranker: Reference-free machine translation evaluation by inter-system
ranking [14.188948302661933]
WMT Shared Metrics Task benchmarks DARR20, MQM20, MQM21。
MT-Rankerは、参照なしおよび参照ベースラインに対する最先端のマークである。
論文 参考訳(メタデータ) (2024-01-30T15:30:03Z) - Robustness Tests for Automatic Machine Translation Metrics with
Adversarial Attacks [39.86206454559138]
我々は、BERTScore、BLEURT、COMETという3つの一般的な機械翻訳メトリクスに対する単語レベルおよび文字レベルの攻撃実験を行った。
我々の人間実験は、自動的なメトリクスが逆向きに劣化した翻訳を過小評価する傾向があることを実証した。
我々は、より堅牢なメートル法開発を動機付ける脆さのパターンを特定する。
論文 参考訳(メタデータ) (2023-11-01T13:14:23Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - CTRLEval: An Unsupervised Reference-Free Metric for Evaluating
Controlled Text Generation [85.03709740727867]
制御されたテキスト生成モデルを評価するために,教師なし参照自由度であるEvalを提案する。
Evalは、事前訓練された言語モデルから生成確率をモデルトレーニングなしで組み立てる。
実験の結果,我々の測定値は他の基準値よりも人間の判断と高い相関関係があることが判明した。
論文 参考訳(メタデータ) (2022-04-02T13:42:49Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。