論文の概要: ACES: Translation Accuracy Challenge Sets at WMT 2023
- arxiv url: http://arxiv.org/abs/2311.01153v1
- Date: Thu, 2 Nov 2023 11:29:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 13:46:48.317762
- Title: ACES: Translation Accuracy Challenge Sets at WMT 2023
- Title(参考訳): aces:wmt 2023での翻訳精度チャレンジ
- Authors: Chantal Amrhein and Nikita Moghe and Liane Guillou
- Abstract要約: ACES Challenge Set を用いて WMT 2023 に提出されたセグメントレベルメトリクスのパフォーマンスをベンチマークした。
課題セットは68の現象からの挑戦を表す36Kの例と、146の言語ペアからなる。
各メトリクスについて、一連のエラーカテゴリに対するパフォーマンスの詳細なプロファイルと、比較を行うための全体的なACES-Scoreを提供する。
- 参考スコア(独自算出の注目度): 7.928752019133836
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We benchmark the performance of segmentlevel metrics submitted to WMT 2023
using the ACES Challenge Set (Amrhein et al., 2022). The challenge set consists
of 36K examples representing challenges from 68 phenomena and covering 146
language pairs. The phenomena range from simple perturbations at the
word/character level to more complex errors based on discourse and real-world
knowledge. For each metric, we provide a detailed profile of performance over a
range of error categories as well as an overall ACES-Score for quick
comparison. We also measure the incremental performance of the metrics
submitted to both WMT 2023 and 2022. We find that 1) there is no clear winner
among the metrics submitted to WMT 2023, and 2) performance change between the
2023 and 2022 versions of the metrics is highly variable. Our recommendations
are similar to those from WMT 2022. Metric developers should focus on: building
ensembles of metrics from different design families, developing metrics that
pay more attention to the source and rely less on surface-level overlap, and
carefully determining the influence of multilingual embeddings on MT
evaluation.
- Abstract(参考訳): ACES Challenge Set (Amrhein et al., 2022)を用いて, WMT 2023に提出されたセグメントレベルメトリクスのパフォーマンスをベンチマークした。
課題セットは68の現象からの挑戦を表す36Kの例と、146の言語ペアからなる。
この現象は、単語/文字レベルでの単純な摂動から、会話や現実世界の知識に基づくより複雑な誤りまで様々である。
各メトリクスについて、一連のエラーカテゴリに対するパフォーマンスの詳細なプロファイルと、比較を行うための全体的なACES-Scoreを提供する。
また,WMT2023および2022に提出された指標の漸進的な性能も測定した。
私たちはそれを見つけ
1) wmt 2023に提出された指標のうち、明確な勝者は存在せず、
2) メトリクスの2023バージョンと2022バージョンのパフォーマンス変更は、非常に可変である。
我々の勧告は、WMT 2022の勧告と似ている。
異なるデザインファミリからメトリクスのアンサンブルを構築すること、ソースに注意を払い、表面レベルの重複を少なくするメトリクスを開発すること、多言語組込みがmt評価に与える影響を慎重に決定すること。
関連論文リスト
- MetricX-24: The Google Submission to the WMT 2024 Metrics Shared Task [21.490930342296256]
We present the MetricX-24 submits to the WMT24 Metrics Shared Task。
私たちの主な提案は、ハイブリッド参照ベース/フリーメトリックです。
WMT23 MQM 評価では MetricX-23 よりも大幅に性能が向上した。
論文 参考訳(メタデータ) (2024-10-04T23:52:28Z) - Guardians of the Machine Translation Meta-Evaluation: Sentinel Metrics Fall In! [80.3129093617928]
毎年、機械翻訳会議(WMT)において、メトリクス共有タスクオーガナイザは、機械翻訳(MT)メトリクスのメタ評価を行う。
この研究は、現在WMTで採用されているメタ評価フレームワークに関する2つの問題を強調し、メトリクスランキングへの影響を評価する。
本稿では,メタ評価プロセスの正確性,堅牢性,公正性を精査するために設計されたセンチネルメトリクスの概念を紹介する。
論文 参考訳(メタデータ) (2024-08-25T13:29:34Z) - The MuSe 2024 Multimodal Sentiment Analysis Challenge: Social Perception and Humor Recognition [64.5207572897806]
マルチモーダル・センティメント・アナリティクス・チャレンジ (MuSe) 2024は、現代の2つのマルチモーダル・インフルエンスと感情分析の問題に対処する。
Social Perception Sub-Challenge (MuSe-Perception)では、参加者は16種類の個人の社会的属性を予測する。
クロスカルカルカルチャー・ヒューモー検出サブチャレンジ(MuSe-Humor)データセットは、Passau Spontaneous Football Coach Humorデータセット上に拡張される。
論文 参考訳(メタデータ) (2024-06-11T22:26:20Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - Unify word-level and span-level tasks: NJUNLP's Participation for the
WMT2023 Quality Estimation Shared Task [59.46906545506715]
我々は、WMT 2023 Quality Estimation (QE)共有タスクにNJUNLPチームを紹介する。
私たちのチームは2つのサブタスクすべてで英語とドイツ語のペアの予測を提出しました。
我々のモデルは、単語レベルと細粒度エラースパン検出サブタスクの両方において、英語とドイツ語で最高の結果を得た。
論文 参考訳(メタデータ) (2023-09-23T01:52:14Z) - Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models [57.80514758695275]
機械翻訳(MT)の品質を評価するために,大規模言語モデル(LLM)を用いることで,システムレベルでの最先端のパフォーマンスを実現する。
我々はtextbftexttError Analysis Prompting (EAPrompt) と呼ばれる新しいプロンプト手法を提案する。
本手法は,多次元品質指標 (MQM) とtextitproduces を用いて,システムレベルとセグメントレベルの両方で説明可能かつ信頼性の高いMT評価を行う。
論文 参考訳(メタデータ) (2023-03-24T05:05:03Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - ACES: Translation Accuracy Challenge Sets for Evaluating Machine
Translation Metrics [2.48769664485308]
機械翻訳(MT)メトリクスは、毎年人間の判断との相関を改善している。
MTにおける精度誤差に直面する際の計量挙動について検討することが重要である。
我々は、単語/文字レベルでの単純な摂動から、談話や実世界の知識に基づくより複雑なエラーまで、68の現象からなる翻訳精度挑戦セットであるACESをキュレートする。
論文 参考訳(メタデータ) (2022-10-27T16:59:02Z) - Learning to Evaluate Translation Beyond English: BLEURT Submissions to
the WMT Metrics 2020 Shared Task [30.889496911261677]
本稿では,WMT 2020 Metrics Shared Taskへのコントリビューションについて述べる。
我々は、移動学習に基づくメトリクスBLEURTに基づいていくつかの提案を行う。
BLEURTの予測とYiSiの予測を組み合わせ、代替参照変換を用いて性能を向上させる方法を示す。
論文 参考訳(メタデータ) (2020-10-08T23:16:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。