論文の概要: Reassessing Claims of Human Parity and Super-Human Performance in
Machine Translation at WMT 2019
- arxiv url: http://arxiv.org/abs/2005.05738v1
- Date: Tue, 12 May 2020 13:09:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-03 18:58:39.369714
- Title: Reassessing Claims of Human Parity and Super-Human Performance in
Machine Translation at WMT 2019
- Title(参考訳): WMT 2019における機械翻訳における人間の親子関係と超人的性能の再評価
- Authors: Antonio Toral
- Abstract要約: 我々は、WMT 2019のニュース共有タスクにおいて、人間の平等と超人的パフォーマンスの主張を再評価する。
以上の結果から,WMT 2019における人的平等と超人的パフォーマンスの主張は,すべて否定されるべきであることが示唆された。
- 参考スコア(独自算出の注目度): 3.3453601632404073
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We reassess the claims of human parity and super-human performance made at
the news shared task of WMT 2019 for three translation directions:
English-to-German, English-to-Russian and German-to-English. First we identify
three potential issues in the human evaluation of that shared task: (i) the
limited amount of intersentential context available, (ii) the limited
translation proficiency of the evaluators and (iii) the use of a reference
translation. We then conduct a modified evaluation taking these issues into
account. Our results indicate that all the claims of human parity and
super-human performance made at WMT 2019 should be refuted, except the claim of
human parity for English-to-German. Based on our findings, we put forward a set
of recommendations and open questions for future assessments of human parity in
machine translation.
- Abstract(参考訳): 我々は、wmt 2019のニュース共有タスクにおいて、英語からドイツ語、英語からロシア語、ドイツ語から英語への3つの翻訳方向について、人間のパリティと超人的なパフォーマンスの主張を再検討する。
まず、その共有タスクの人的評価における3つの潜在的な問題を特定する。
(i)使用可能なインターセテンシャルコンテキストの限られた量
(二)蒸発器の限定翻訳能力及び翻訳能力
(iii)参考翻訳の使用。
次に,これらの問題を考慮した修正評価を行う。
以上の結果から,WMT 2019における人的平等と超人的パフォーマンスの主張は,英語とドイツ語の人的平等の主張を除いてすべて否定されるべきであることが示唆された。
この結果に基づき,機械翻訳における人間のパリティの今後の評価に向けて,一連の勧告とオープン質問を行った。
関連論文リスト
- Prompting ChatGPT for Translation: A Comparative Analysis of Translation
Brief and Persona Prompts [0.0]
本稿では,ChatGPTにおける翻訳作業の素早い設計に,翻訳の簡潔さの概念ツールと翻訳者および著者のペルソナを組み込むことの有効性について論じる。
また, 翻訳作業において, 人から人へのコミュニケーションを促進するために構築的な要素があるものの, ChatGPTの翻訳品質の向上には有効性が限られていることが示唆された。
このことは、人間のマシンインタラクションを含むこの新たなワークフローにおいて、人間から人間のコミュニケーションパラダイムに根ざした、現在の概念的なツールセットをどのように開発するか、より爆発的な研究の必要性を暗示している。
論文 参考訳(メタデータ) (2024-02-29T21:05:38Z) - Improving Machine Translation with Human Feedback: An Exploration of
Quality Estimation as a Reward Model [79.45416224840135]
報酬モデルにおける人間の嗜好の不十分なモデリングは、人間のフィードバックを活用して翻訳品質を向上させる上で大きな障害となる。
本研究では,QEモデルを報酬モデルとして活用し,フィードバックトレーニングにおける人間の嗜好を予測する可能性について検討する。
実験結果から,提案したQEに基づくフィードバックトレーニングは,様々な設定において一貫した,重要な改善を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-01-23T16:07:43Z) - Collaborative Evaluation: Exploring the Synergy of Large Language Models
and Humans for Open-ended Generation Evaluation [71.76872586182981]
大規模言語モデル(LLM)は、人間の評価に代わるスケーラブルで費用対効果の高い代替品として登場した。
本稿では,タスク固有の基準のチェックリストとテキストの詳細な評価を含む協調評価パイプラインCoEvalを提案する。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z) - Discourse Centric Evaluation of Machine Translation with a Densely
Annotated Parallel Corpus [82.07304301996562]
本稿では,江らが導入した大規模並列コーパスBWBに基づいて,リッチな談話アノテーションを用いた新しいデータセットを提案する。
ソース言語とターゲット言語の談話構造と類似点と相違点について検討する。
我々はMT出力が人間の翻訳と基本的に異なることを発見した。
論文 参考訳(メタデータ) (2023-05-18T17:36:41Z) - Error Analysis Prompting Enables Human-Like Translation Evaluation in
Large Language Models [61.25124893688374]
機械翻訳(MT)の品質を評価するために,大規模言語モデル(LLM)を用いることで,システムレベルでの最先端のパフォーマンスを実現する。
我々はtextbftexttError Analysis Prompting (EAPrompt) と呼ばれる新しいプロンプト手法を提案する。
本手法は,多次元品質指標 (MQM) とtextitproduces を用いて,システムレベルとセグメントレベルの両方で説明可能かつ信頼性の高いMT評価を行う。
論文 参考訳(メタデータ) (2023-03-24T05:05:03Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - Consistent Human Evaluation of Machine Translation across Language Pairs [21.81895199744468]
本稿では, 意味的等価性に着目したXSTSと呼ばれる新しい計量法と, 言語間キャリブレーション法を提案する。
最大14言語対にわたる大規模評価研究において,これらの新規貢献の有効性を実証する。
論文 参考訳(メタデータ) (2022-05-17T17:57:06Z) - Experts, Errors, and Context: A Large-Scale Study of Human Evaluation
for Machine Translation [19.116396693370422]
本稿では,多次元品質指標フレームワークに基づく明示的誤り分析に基づく評価手法を提案する。
我々はこれまでで最大のMQM研究を行い、WMT 2020の共通タスクから上位システムの出力を2つの言語ペアで評価した。
得られたデータを広範囲に分析し,wmtの群集作業員が確立したシステムとは,評価システムのランキングが実質的に異なる点を見出した。
論文 参考訳(メタデータ) (2021-04-29T16:42:09Z) - Learning to Evaluate Translation Beyond English: BLEURT Submissions to
the WMT Metrics 2020 Shared Task [30.889496911261677]
本稿では,WMT 2020 Metrics Shared Taskへのコントリビューションについて述べる。
我々は、移動学習に基づくメトリクスBLEURTに基づいていくつかの提案を行う。
BLEURTの予測とYiSiの予測を組み合わせ、代替参照変換を用いて性能を向上させる方法を示す。
論文 参考訳(メタデータ) (2020-10-08T23:16:26Z) - A Set of Recommendations for Assessing Human-Machine Parity in Language
Translation [87.72302201375847]
我々は、ハサンらの中国語から英語への翻訳調査を再評価する。
専門家による翻訳では誤りが著しく少なかった。
論文 参考訳(メタデータ) (2020-04-03T17:49:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。