論文の概要: Reassessing Claims of Human Parity and Super-Human Performance in
Machine Translation at WMT 2019
- arxiv url: http://arxiv.org/abs/2005.05738v1
- Date: Tue, 12 May 2020 13:09:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-03 18:58:39.369714
- Title: Reassessing Claims of Human Parity and Super-Human Performance in
Machine Translation at WMT 2019
- Title(参考訳): WMT 2019における機械翻訳における人間の親子関係と超人的性能の再評価
- Authors: Antonio Toral
- Abstract要約: 我々は、WMT 2019のニュース共有タスクにおいて、人間の平等と超人的パフォーマンスの主張を再評価する。
以上の結果から,WMT 2019における人的平等と超人的パフォーマンスの主張は,すべて否定されるべきであることが示唆された。
- 参考スコア(独自算出の注目度): 3.3453601632404073
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We reassess the claims of human parity and super-human performance made at
the news shared task of WMT 2019 for three translation directions:
English-to-German, English-to-Russian and German-to-English. First we identify
three potential issues in the human evaluation of that shared task: (i) the
limited amount of intersentential context available, (ii) the limited
translation proficiency of the evaluators and (iii) the use of a reference
translation. We then conduct a modified evaluation taking these issues into
account. Our results indicate that all the claims of human parity and
super-human performance made at WMT 2019 should be refuted, except the claim of
human parity for English-to-German. Based on our findings, we put forward a set
of recommendations and open questions for future assessments of human parity in
machine translation.
- Abstract(参考訳): 我々は、wmt 2019のニュース共有タスクにおいて、英語からドイツ語、英語からロシア語、ドイツ語から英語への3つの翻訳方向について、人間のパリティと超人的なパフォーマンスの主張を再検討する。
まず、その共有タスクの人的評価における3つの潜在的な問題を特定する。
(i)使用可能なインターセテンシャルコンテキストの限られた量
(二)蒸発器の限定翻訳能力及び翻訳能力
(iii)参考翻訳の使用。
次に,これらの問題を考慮した修正評価を行う。
以上の結果から,WMT 2019における人的平等と超人的パフォーマンスの主張は,英語とドイツ語の人的平等の主張を除いてすべて否定されるべきであることが示唆された。
この結果に基づき,機械翻訳における人間のパリティの今後の評価に向けて,一連の勧告とオープン質問を行った。
関連論文リスト
- Findings of the WMT 2024 Shared Task on Chat Translation [4.800626318046925]
本稿では,第3版チャット翻訳共有タスクの結果について述べる。
この課題は、二言語的カスタマーサポート会話の翻訳、特に翻訳品質と評価における会話コンテキストの影響に焦点を当てることであった。
私たちは8つのチームから22のプライマリ・サブミットと32のコントラスト・サブミットを受け取り、それぞれの言語ペアは少なくとも3つのチームから参加しました。
論文 参考訳(メタデータ) (2024-10-15T14:13:17Z) - Evaluating the IWSLT2023 Speech Translation Tasks: Human Annotations, Automatic Metrics, and Segmentation [50.60733773088296]
音声言語翻訳国際ワークショップ(IWSLT 2023)における共有タスクの結果を総合的に評価する。
本稿では,セグメントコンテキストによる自動回帰と直接評価に基づく効果的な評価戦略を提案する。
分析の結果,1) 提案した評価戦略は頑健であり,他の種類の人的判断とよく相関している,2) 自動測定基準は通常,必ずしも直接評価スコアとよく関連しているわけではない,3) COMET は chrF よりもわずかに強い自動測定基準である,といった結果を得た。
論文 参考訳(メタデータ) (2024-06-06T09:18:42Z) - Improving Machine Translation with Human Feedback: An Exploration of Quality Estimation as a Reward Model [75.66013048128302]
本研究では,QEモデルを報酬モデルとして活用し,フィードバックトレーニングにおける人間の嗜好を予測する可能性について検討する。
まず,QEに基づくフィードバックトレーニングにおいて,翻訳品質が低下する中で,報酬の増大として現れる過度な最適化問題を同定した。
問題に対処するために,ルールを用いて誤った翻訳を検知し,報酬のスコアにペナルティ項を割り当てる,シンプルで効果的な手法を採用する。
論文 参考訳(メタデータ) (2024-01-23T16:07:43Z) - Iterative Translation Refinement with Large Language Models [25.90607157524168]
本稿では,翻訳を自己修正するために,大規模言語モデルを反復的に提案する。
また,評価における課題と,人間のパフォーマンスと翻訳との関係についても論じる。
論文 参考訳(メタデータ) (2023-06-06T16:51:03Z) - Discourse Centric Evaluation of Machine Translation with a Densely
Annotated Parallel Corpus [82.07304301996562]
本稿では,江らが導入した大規模並列コーパスBWBに基づいて,リッチな談話アノテーションを用いた新しいデータセットを提案する。
ソース言語とターゲット言語の談話構造と類似点と相違点について検討する。
我々はMT出力が人間の翻訳と基本的に異なることを発見した。
論文 参考訳(メタデータ) (2023-05-18T17:36:41Z) - Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models [57.80514758695275]
機械翻訳(MT)の品質を評価するために,大規模言語モデル(LLM)を用いることで,システムレベルでの最先端のパフォーマンスを実現する。
我々はtextbftexttError Analysis Prompting (EAPrompt) と呼ばれる新しいプロンプト手法を提案する。
本手法は,多次元品質指標 (MQM) とtextitproduces を用いて,システムレベルとセグメントレベルの両方で説明可能かつ信頼性の高いMT評価を行う。
論文 参考訳(メタデータ) (2023-03-24T05:05:03Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - Consistent Human Evaluation of Machine Translation across Language Pairs [21.81895199744468]
本稿では, 意味的等価性に着目したXSTSと呼ばれる新しい計量法と, 言語間キャリブレーション法を提案する。
最大14言語対にわたる大規模評価研究において,これらの新規貢献の有効性を実証する。
論文 参考訳(メタデータ) (2022-05-17T17:57:06Z) - Learning to Evaluate Translation Beyond English: BLEURT Submissions to
the WMT Metrics 2020 Shared Task [30.889496911261677]
本稿では,WMT 2020 Metrics Shared Taskへのコントリビューションについて述べる。
我々は、移動学習に基づくメトリクスBLEURTに基づいていくつかの提案を行う。
BLEURTの予測とYiSiの予測を組み合わせ、代替参照変換を用いて性能を向上させる方法を示す。
論文 参考訳(メタデータ) (2020-10-08T23:16:26Z) - A Set of Recommendations for Assessing Human-Machine Parity in Language
Translation [87.72302201375847]
我々は、ハサンらの中国語から英語への翻訳調査を再評価する。
専門家による翻訳では誤りが著しく少なかった。
論文 参考訳(メタデータ) (2020-04-03T17:49:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。