論文の概要: Improving Metrics for Speech Translation
- arxiv url: http://arxiv.org/abs/2305.12918v1
- Date: Mon, 22 May 2023 11:01:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 16:41:26.397161
- Title: Improving Metrics for Speech Translation
- Title(参考訳): 音声翻訳のためのメトリクスの改善
- Authors: Claudio Paonessa and Dominik Frefel and Manfred Vogel
- Abstract要約: 本稿では,パラレルパラフレージング(textPara_textboth$)について紹介する。
提案手法が一般的なメトリクスに適用された場合,人間の品質知覚との相関性を大幅に改善できることが示唆された。
- 参考スコア(独自算出の注目度): 1.2891210250935146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Parallel Paraphrasing ($\text{Para}_\text{both}$), an
augmentation method for translation metrics making use of automatic
paraphrasing of both the reference and hypothesis. This method counteracts the
typically misleading results of speech translation metrics such as WER, CER,
and BLEU if only a single reference is available. We introduce two new datasets
explicitly created to measure the quality of metrics intended to be applied to
Swiss German speech-to-text systems. Based on these datasets, we show that we
are able to significantly improve the correlation with human quality perception
if our method is applied to commonly used metrics.
- Abstract(参考訳): 参照と仮説の両方の自動パラフレージングを利用して、翻訳メトリクスのための拡張メソッドであるparallel paraphrasing (\text{para}_\text{both}$)を導入する。
この手法は、WER、CER、BLEUのような音声翻訳メトリクスの典型的な誤解を招く結果を、単一の参照しか利用できない場合に対処する。
スイスの音声合成システムに適用可能なメトリクスの品質を測定するために,新たに2つのデータセットを新たに導入した。
これらのデータセットに基づいて,本手法が一般的なメトリクスに適用された場合,人間の品質知覚との相関性を大幅に改善できることを示す。
関連論文リスト
- Evaluating Automatic Metrics with Incremental Machine Translation Systems [55.78547133890403]
商業機械翻訳からなるデータセットを導入し,12の翻訳方向から6年間にわたって収集した。
商業システムは時間とともに改善され、より最近の翻訳の好みに基づいて機械翻訳(MT)メトリクスを評価することができると仮定する。
論文 参考訳(メタデータ) (2024-07-03T17:04:17Z) - Training and Meta-Evaluating Machine Translation Evaluation Metrics at
the Paragraph Level [23.47729750104952]
本稿では,メタ評価とトレーニングのための段落レベルのデータ作成手法を提案する。
実験の結果, 文レベルの指標を用いて段落全体を評価することは, 段落レベルで機能するように設計された指標と同程度に効果的であることがわかった。
論文 参考訳(メタデータ) (2023-08-25T17:31:46Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - Embarrassingly Easy Document-Level MT Metrics: How to Convert Any
Pretrained Metric Into a Document-Level Metric [15.646714712131148]
文書レベルでコンテキストを組み込むための事前学習メトリクスを拡張する手法を提案する。
その結果, 実験条件の約85%において, 文章レベルの指標よりも高い結果が得られた。
我々の実験結果は、私たちの最初の仮説を支持し、メトリクスの単純な拡張によってコンテキストを活用できることを示す。
論文 参考訳(メタデータ) (2022-09-27T19:42:22Z) - InfoLM: A New Metric to Evaluate Summarization & Data2Text Generation [27.129551973093008]
InfoLMは、文字列ベースのメトリクスとして見ることのできる、トレーニングされていないメトリクスのファミリーです。
このメトリクスの族は、InfoLMを様々な評価基準に適応させる情報測度も活用している。
論文 参考訳(メタデータ) (2021-12-02T20:09:29Z) - REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation
Metrics for Open-domain Dialog Generation [63.46331073232526]
オープンドメイン対話システムにおける参照ベースのEvAluation Metricsの拡張手法を提案する。
予測モデルは、与えられた基準セットの信頼性を推定するように設計されている。
本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
論文 参考訳(メタデータ) (2021-05-30T10:04:13Z) - Measuring and Increasing Context Usage in Context-Aware Machine
Translation [64.5726087590283]
機械翻訳モデルによるコンテキストの使用を定量的にするために、新しいメトリクス、条件付き相互情報を導入します。
次に,コンテキスト認識モデルによってコンテキストの使用量を増やすために,コンテキスト認識ワードドロップアウトという,新しい簡易なトレーニング手法を導入する。
論文 参考訳(メタデータ) (2021-05-07T19:55:35Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z) - BLEU might be Guilty but References are not Innocent [34.817010352734]
我々は,参照を収集し,その価値を自動評価で比較するための異なる手法について検討する。
典型的参照が多様性に乏しく、翻訳言語を中心にして、パラフレーズ化タスクを開発することに動機づけられた。
提案手法は,WMT 2019英語をドイツ語に投稿するだけでなく,バックトランスレーションやAPE拡張MT出力に対しても高い相関性を示す。
論文 参考訳(メタデータ) (2020-04-13T16:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。