論文の概要: Training and Meta-Evaluating Machine Translation Evaluation Metrics at
the Paragraph Level
- arxiv url: http://arxiv.org/abs/2308.13506v1
- Date: Fri, 25 Aug 2023 17:31:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-28 13:02:22.959743
- Title: Training and Meta-Evaluating Machine Translation Evaluation Metrics at
the Paragraph Level
- Title(参考訳): 段落レベルでの機械翻訳評価指標の訓練とメタ評価
- Authors: Daniel Deutsch and Juraj Juraska and Mara Finkelstein and and Markus
Freitag
- Abstract要約: 本稿では,メタ評価とトレーニングのための段落レベルのデータ作成手法を提案する。
実験の結果, 文レベルの指標を用いて段落全体を評価することは, 段落レベルで機能するように設計された指標と同程度に効果的であることがわかった。
- 参考スコア(独自算出の注目度): 21.490930342296256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As research on machine translation moves to translating text beyond the
sentence level, it remains unclear how effective automatic evaluation metrics
are at scoring longer translations. In this work, we first propose a method for
creating paragraph-level data for training and meta-evaluating metrics from
existing sentence-level data. Then, we use these new datasets to benchmark
existing sentence-level metrics as well as train learned metrics at the
paragraph level. Interestingly, our experimental results demonstrate that using
sentence-level metrics to score entire paragraphs is equally as effective as
using a metric designed to work at the paragraph level. We speculate this
result can be attributed to properties of the task of reference-based
evaluation as well as limitations of our datasets with respect to capturing all
types of phenomena that occur in paragraph-level translations.
- Abstract(参考訳): 機械翻訳の研究が文レベルを超えてテキストの翻訳に移るにつれ、自動評価指標が長い翻訳のスコアにどの程度効果があるかは明らかでない。
本稿では,まず,既存の文レベルのデータからメトリクスを訓練し,メタ評価するための段落レベルのデータを作成する手法を提案する。
そして、これらの新しいデータセットを使用して、既存の文レベルのメトリクスをベンチマークし、段落レベルの学習メトリクスをトレーニングします。
実験結果から,文レベルの指標を用いて段落全体を評価することは,段落レベルで作業するように設計された指標と同等に効果的であることが示された。
この結果は,参照ベース評価の課題の特性と,段落レベルの翻訳で発生するすべての現象を捉えるためのデータセットの制限に起因していると推測する。
関連論文リスト
- Guardians of the Machine Translation Meta-Evaluation: Sentinel Metrics Fall In! [80.3129093617928]
毎年、機械翻訳会議(WMT)において、メトリクス共有タスクオーガナイザは、機械翻訳(MT)メトリクスのメタ評価を行う。
この研究は、現在WMTで採用されているメタ評価フレームワークに関する2つの問題を強調し、メトリクスランキングへの影響を評価する。
本稿では,メタ評価プロセスの正確性,堅牢性,公正性を精査するために設計されたセンチネルメトリクスの概念を紹介する。
論文 参考訳(メタデータ) (2024-08-25T13:29:34Z) - Evaluating Automatic Metrics with Incremental Machine Translation Systems [55.78547133890403]
商業機械翻訳からなるデータセットを導入し,12の翻訳方向から6年間にわたって収集した。
商業システムは時間とともに改善され、より最近の翻訳の好みに基づいて機械翻訳(MT)メトリクスを評価することができると仮定する。
論文 参考訳(メタデータ) (2024-07-03T17:04:17Z) - Improving Metrics for Speech Translation [1.2891210250935146]
本稿では,パラレルパラフレージング(textPara_textboth$)について紹介する。
提案手法が一般的なメトリクスに適用された場合,人間の品質知覚との相関性を大幅に改善できることが示唆された。
論文 参考訳(メタデータ) (2023-05-22T11:01:38Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - Embarrassingly Easy Document-Level MT Metrics: How to Convert Any
Pretrained Metric Into a Document-Level Metric [15.646714712131148]
文書レベルでコンテキストを組み込むための事前学習メトリクスを拡張する手法を提案する。
その結果, 実験条件の約85%において, 文章レベルの指標よりも高い結果が得られた。
我々の実験結果は、私たちの最初の仮説を支持し、メトリクスの単純な拡張によってコンテキストを活用できることを示す。
論文 参考訳(メタデータ) (2022-09-27T19:42:22Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。
我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。
さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-04-11T10:14:35Z) - Re-evaluating Evaluation in Text Summarization [77.4601291738445]
トップスコアシステム出力を用いたテキスト要約の評価手法を再評価する。
古いデータセットにおける評価指標に関する結論は、現代データセットやシステムに必ずしも当てはまらない。
論文 参考訳(メタデータ) (2020-10-14T13:58:53Z) - Towards Question-Answering as an Automatic Metric for Evaluating the
Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。
提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文 参考訳(メタデータ) (2020-10-01T15:33:09Z) - Using Context in Neural Machine Translation Training Objectives [23.176247496139574]
バッチレベルの文書を用いた文書レベルのメトリクスを用いたニューラルネットワーク翻訳(NMT)トレーニングを提案する。
トレーニングは、シーケンスメトリクスよりもドキュメントレベルのメトリクスの方が堅牢であることを示す。
論文 参考訳(メタデータ) (2020-05-04T13:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。