論文の概要: MuLER: Detailed and Scalable Reference-based Evaluation
- arxiv url: http://arxiv.org/abs/2305.14991v2
- Date: Wed, 29 Nov 2023 10:47:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 01:06:54.810650
- Title: MuLER: Detailed and Scalable Reference-based Evaluation
- Title(参考訳): MuLER: 詳細でスケーラブルなリファレンスベースの評価
- Authors: Taelin Karidi, Leshem Choshen, Gal Patel, Omri Abend
- Abstract要約: そこで本研究では,テキスト生成のための基準ベース評価基準を細粒度解析ツールに変換する手法を提案する。
システムとメートル法が与えられたとき、MulERは選択されたメートル法が特定のエラータイプをどれだけ罰するかを定量化する。
我々は,MulERの有効性を実証し,その有用性を示すために,合成的および自然主義的な設定の両方で実験を行う。
- 参考スコア(独自算出の注目度): 24.80921931416632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel methodology (namely, MuLER) that transforms any
reference-based evaluation metric for text generation, such as machine
translation (MT) into a fine-grained analysis tool. Given a system and a
metric, MuLER quantifies how much the chosen metric penalizes specific error
types (e.g., errors in translating names of locations). MuLER thus enables a
detailed error analysis which can lead to targeted improvement efforts for
specific phenomena. We perform experiments in both synthetic and naturalistic
settings to support MuLER's validity and showcase its usability in MT
evaluation, and other tasks, such as summarization. Analyzing all submissions
to WMT in 2014-2020, we find consistent trends. For example, nouns and verbs
are among the most frequent POS tags. However, they are among the hardest to
translate. Performance on most POS tags improves with overall system
performance, but a few are not thus correlated (their identity changes from
language to language). Preliminary experiments with summarization reveal
similar trends.
- Abstract(参考訳): 本稿では,機械翻訳(MT)などのテキスト生成のための基準ベース評価基準を,微細な解析ツールに変換する手法(MulER)を提案する。
システムとメトリックが与えられたとき、ミューラーは選択されたメトリックが特定のエラータイプをどれだけペナルティ化するか(例えば、場所の名前の変換エラー)を定量化する。
MuLERは、特定の現象に対する目標となる改善作業に繋がる、詳細なエラー解析を可能にする。
我々は,MulERの妥当性を実証し,MT評価におけるユーザビリティや要約などのタスクを示すために,合成的および自然主義的な設定の両方で実験を行う。
2014-2020年のWMTへの全ての申請を分析し、一貫した傾向を見出した。
例えば、名詞と動詞は最も頻繁に使われるPOSタグの1つである。
しかし、翻訳は最も難しいものの一つである。
ほとんどのPOSタグのパフォーマンスはシステム全体のパフォーマンスによって改善されるが、いくつかのものは相関しない(言語から言語へのアイデンティティの変更)。
要約による予備実験も同様の傾向を示す。
関連論文リスト
- Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - A Survey on Zero Pronoun Translation [69.09774294082965]
ゼロ代名詞(ZP)はプロドロップ言語では省略されることが多いが、非プロドロップ言語ではリコールされるべきである。
本研究は, 神経革命後のゼロ代名詞翻訳(ZPT)における主要な研究について述べる。
1) ZPTは大規模言語モデルの発展傾向と一致している; 2) データの制限は言語やドメインの学習バイアスを引き起こす; 3) 性能改善は単一のベンチマークで報告されることが多いが、高度な手法はまだ実世界の利用には程遠い。
論文 参考訳(メタデータ) (2023-05-17T13:19:01Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - DEMETR: Diagnosing Evaluation Metrics for Translation [21.25704103403547]
我々は、英語31K例の診断データセットであるDEMETRをリリースする。
学習指標はDEMETRの文字列ベースの指標よりもかなり優れていることがわかった。
論文 参考訳(メタデータ) (2022-10-25T03:25:44Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z) - Can Your Context-Aware MT System Pass the DiP Benchmark Tests? :
Evaluation Benchmarks for Discourse Phenomena in Machine Translation [7.993547048820065]
本稿では,4つの主要な談話現象の追跡と改善を目的としたMTベンチマークデータセットについて紹介する。
驚くべきことに、既存の文脈認識モデルでは、言語や現象間の会話関連翻訳が一貫して改善されない。
論文 参考訳(メタデータ) (2020-04-30T07:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。