論文の概要: Fine-grained linguistic evaluation for state-of-the-art Machine
Translation
- arxiv url: http://arxiv.org/abs/2010.06359v2
- Date: Wed, 14 Oct 2020 19:50:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 23:38:51.607373
- Title: Fine-grained linguistic evaluation for state-of-the-art Machine
Translation
- Title(参考訳): 最先端機械翻訳のためのきめ細かな言語評価
- Authors: Eleftherios Avramidis, Vivien Macketanz, Ursula Strohriegel, Aljoscha
Burchardt and Sebastian M\"oller
- Abstract要約: この分析は、約5500の試験項目に基づいて、14のカテゴリで編成された107の現象をカバーしている。
2つのシステム(TohokuとHuoshan)は、他のシステムよりもテストスイートの精度が大幅に向上しているようだ。
WMT19のシステムの多くは、今年新しいバージョンを提出した。
- 参考スコア(独自算出の注目度): 6.873476231923083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes a test suite submission providing detailed statistics of
linguistic performance for the state-of-the-art German-English systems of the
Fifth Conference of Machine Translation (WMT20). The analysis covers 107
phenomena organized in 14 categories based on about 5,500 test items, including
a manual annotation effort of 45 person hours. Two systems (Tohoku and Huoshan)
appear to have significantly better test suite accuracy than the others,
although the best system of WMT20 is not significantly better than the one from
WMT19 in a macro-average. Additionally, we identify some linguistic phenomena
where all systems suffer (such as idioms, resultative predicates and
pluperfect), but we are also able to identify particular weaknesses for
individual systems (such as quotation marks, lexical ambiguity and sluicing).
Most of the systems of WMT19 which submitted new versions this year show
improvements.
- Abstract(参考訳): 本稿では,第5回機械翻訳会議(WMT20)の現在最先端のドイツ語系システムに対して,言語性能の詳細な統計情報を提供するテストスイートについて述べる。
分析は,手動注記作業45時間を含む約5500個の試験項目に基づいて,14のカテゴリに分類された107の現象を対象とする。
2つのシステム(TohokuとHuoshan)は、他のシステムよりもテストスイートの精度が大幅に向上しているように見えるが、WMT20の最良のシステムは、マクロ平均でWMT19のシステムよりもはるかに優れているわけではない。
さらに、全てのシステムが苦しむ言語現象(イディオム、結果述語、pluperfectなど)を特定できるが、個々のシステム(引用符号、語彙曖昧性、スライシングなど)の弱点を特定することもできる。
WMT19のシステムの多くは、今年新しいバージョンを提出した。
関連論文リスト
- Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - KIT's Multilingual Speech Translation System for IWSLT 2023 [58.5152569458259]
IWSLT 2023の多言語トラックに対する音声翻訳システムについて述べる。
このタスクは、様々な量のリソースを持つ10の言語に翻訳する必要がある。
我々のケースド音声システムは、科学的な話の翻訳において、エンドツーエンドの音声よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-06-08T16:13:20Z) - Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models [57.80514758695275]
機械翻訳(MT)の品質を評価するために,大規模言語モデル(LLM)を用いることで,システムレベルでの最先端のパフォーマンスを実現する。
我々はtextbftexttError Analysis Prompting (EAPrompt) と呼ばれる新しいプロンプト手法を提案する。
本手法は,多次元品質指標 (MQM) とtextitproduces を用いて,システムレベルとセグメントレベルの両方で説明可能かつ信頼性の高いMT評価を行う。
論文 参考訳(メタデータ) (2023-03-24T05:05:03Z) - Large Language Models Are State-of-the-Art Evaluators of Translation
Quality [7.818228526742237]
GEMBAは、翻訳品質を評価するためのGPTベースのメトリクスである。
本稿では,ChatGPTとGPT-4を含む9種類のGPTモデルについて検討する。
本手法は, MQMに基づく人間ラベルと比較した場合, 両モードで最先端の精度を実現する。
論文 参考訳(メタデータ) (2023-02-28T12:23:48Z) - MIA 2022 Shared Task: Evaluating Cross-lingual Open-Retrieval Question
Answering for 16 Diverse Languages [54.002969723086075]
16言語に類型的に多様である言語における言語横断的オープン-検索型問合せシステムの評価を行った。
反復的にマイニングされた多様な負の例を利用する最良のシステムは32.2 F1となり、ベースラインを4.5ポイント上回る。
第2のベストシステムは文書検索にエンティティを意識した文脈表現を使用し、タミル(20.8 F1)の大幅な改善を実現している。
論文 参考訳(メタデータ) (2022-07-02T06:54:10Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - As Easy as 1, 2, 3: Behavioural Testing of NMT Systems for Numerical
Translation [51.20569527047729]
誤訳された数字は、金銭的損失や医療的誤報などの深刻な影響を引き起こす可能性がある。
本研究では,ニューラルネットワーク翻訳システムの動作テストによる数値テキストへの堅牢性に関する総合的な評価法を開発した。
論文 参考訳(メタデータ) (2021-07-18T04:09:47Z) - Learning to Evaluate Translation Beyond English: BLEURT Submissions to
the WMT Metrics 2020 Shared Task [30.889496911261677]
本稿では,WMT 2020 Metrics Shared Taskへのコントリビューションについて述べる。
我々は、移動学習に基づくメトリクスBLEURTに基づいていくつかの提案を行う。
BLEURTの予測とYiSiの予測を組み合わせ、代替参照変換を用いて性能を向上させる方法を示す。
論文 参考訳(メタデータ) (2020-10-08T23:16:26Z) - Can Your Context-Aware MT System Pass the DiP Benchmark Tests? :
Evaluation Benchmarks for Discourse Phenomena in Machine Translation [7.993547048820065]
本稿では,4つの主要な談話現象の追跡と改善を目的としたMTベンチマークデータセットについて紹介する。
驚くべきことに、既存の文脈認識モデルでは、言語や現象間の会話関連翻訳が一貫して改善されない。
論文 参考訳(メタデータ) (2020-04-30T07:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。