Fugu-MT 論文翻訳(概要): Reassessing Claims of Human Parity and Super-Human Performance in Machine Translation at WMT 2019

論文の概要: Reassessing Claims of Human Parity and Super-Human Performance in Machine Translation at WMT 2019

arxiv url: http://arxiv.org/abs/2005.05738v1
Date: Tue, 12 May 2020 13:09:29 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-03 18:58:39.369714
Title: Reassessing Claims of Human Parity and Super-Human Performance in Machine Translation at WMT 2019
Title（参考訳）: WMT 2019における機械翻訳における人間の親子関係と超人的性能の再評価
Authors: Antonio Toral
Abstract要約: 我々は、WMT 2019のニュース共有タスクにおいて、人間の平等と超人的パフォーマンスの主張を再評価する。以上の結果から,WMT 2019における人的平等と超人的パフォーマンスの主張は,すべて否定されるべきであることが示唆された。
参考スコア（独自算出の注目度）: 3.3453601632404073
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We reassess the claims of human parity and super-human performance made at the news shared task of WMT 2019 for three translation directions: English-to-German, English-to-Russian and German-to-English. First we identify three potential issues in the human evaluation of that shared task: (i) the limited amount of intersentential context available, (ii) the limited translation proficiency of the evaluators and (iii) the use of a reference translation. We then conduct a modified evaluation taking these issues into account. Our results indicate that all the claims of human parity and super-human performance made at WMT 2019 should be refuted, except the claim of human parity for English-to-German. Based on our findings, we put forward a set of recommendations and open questions for future assessments of human parity in machine translation.
Abstract（参考訳）: 我々は、wmt 2019のニュース共有タスクにおいて、英語からドイツ語、英語からロシア語、ドイツ語から英語への3つの翻訳方向について、人間のパリティと超人的なパフォーマンスの主張を再検討する。まず、その共有タスクの人的評価における3つの潜在的な問題を特定する。 (i)使用可能なインターセテンシャルコンテキストの限られた量 (二)蒸発器の限定翻訳能力及び翻訳能力 (iii)参考翻訳の使用。次に,これらの問題を考慮した修正評価を行う。以上の結果から,WMT 2019における人的平等と超人的パフォーマンスの主張は,英語とドイツ語の人的平等の主張を除いてすべて否定されるべきであることが示唆された。この結果に基づき,機械翻訳における人間のパリティの今後の評価に向けて,一連の勧告とオープン質問を行った。

関連論文リスト

Has Machine Translation Evaluation Achieved Human Parity? The Human Reference and the Limits of Progress [43.09028349076039]
機械翻訳(MT)評価では、人的判断との一致に基づいて計量性能を評価する。我々はMTメタ評価,すなわちMTメトリクスの能力の評価に,人間のベースラインを取り入れた。以上の結果から,ヒトのアノテータは自動測定値よりも一貫して優れていないことが示唆された。
論文参考訳（メタデータ） (2025-06-24T12:35:00Z)
Context-Aware Monolingual Human Evaluation of Machine Translation [0.0]
本稿では,機械翻訳(MT)における文脈認識型単言語評価の可能性について検討する。 4人の専門翻訳者がモノリンガルとバイリンガルの両方の評価を行った。以上の結果から,文脈を考慮したモノリンガル評価が人間のバイリンガル評価に匹敵する結果をもたらすことが示唆された。
論文参考訳（メタデータ） (2025-04-10T12:13:58Z)
Findings of the WMT 2024 Shared Task on Chat Translation [4.800626318046925]
本稿では,第3版チャット翻訳共有タスクの結果について述べる。この課題は、二言語的カスタマーサポート会話の翻訳、特に翻訳品質と評価における会話コンテキストの影響に焦点を当てることであった。私たちは8つのチームから22のプライマリ・サブミットと32のコントラスト・サブミットを受け取り、それぞれの言語ペアは少なくとも3つのチームから参加しました。
論文参考訳（メタデータ） (2024-10-15T14:13:17Z)
Evaluating the IWSLT2023 Speech Translation Tasks: Human Annotations, Automatic Metrics, and Segmentation [50.60733773088296]
音声言語翻訳国際ワークショップ(IWSLT 2023)における共有タスクの結果を総合的に評価する。本稿では,セグメントコンテキストによる自動回帰と直接評価に基づく効果的な評価戦略を提案する。分析の結果,1) 提案した評価戦略は頑健であり,他の種類の人的判断とよく相関している,2) 自動測定基準は通常,必ずしも直接評価スコアとよく関連しているわけではない,3) COMET は chrF よりもわずかに強い自動測定基準である,といった結果を得た。
論文参考訳（メタデータ） (2024-06-06T09:18:42Z)
Improving Machine Translation with Human Feedback: An Exploration of Quality Estimation as a Reward Model [75.66013048128302]
本研究では,QEモデルを報酬モデルとして活用し,フィードバックトレーニングにおける人間の嗜好を予測する可能性について検討する。まず,QEに基づくフィードバックトレーニングにおいて,翻訳品質が低下する中で,報酬の増大として現れる過度な最適化問題を同定した。問題に対処するために,ルールを用いて誤った翻訳を検知し,報酬のスコアにペナルティ項を割り当てる,シンプルで効果的な手法を採用する。
論文参考訳（メタデータ） (2024-01-23T16:07:43Z)
Iterative Translation Refinement with Large Language Models [25.90607157524168]
本稿では,翻訳を自己修正するために,大規模言語モデルを反復的に提案する。また,評価における課題と,人間のパフォーマンスと翻訳との関係についても論じる。
論文参考訳（メタデータ） (2023-06-06T16:51:03Z)
Discourse Centric Evaluation of Machine Translation with a Densely Annotated Parallel Corpus [82.07304301996562]
本稿では,江らが導入した大規模並列コーパスBWBに基づいて,リッチな談話アノテーションを用いた新しいデータセットを提案する。ソース言語とターゲット言語の談話構造と類似点と相違点について検討する。我々はMT出力が人間の翻訳と基本的に異なることを発見した。
論文参考訳（メタデータ） (2023-05-18T17:36:41Z)
Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models [57.80514758695275]
機械翻訳(MT)の品質を評価するために,大規模言語モデル(LLM)を用いることで,システムレベルでの最先端のパフォーマンスを実現する。我々はtextbftexttError Analysis Prompting (EAPrompt) と呼ばれる新しいプロンプト手法を提案する。本手法は,多次元品質指標 (MQM) とtextitproduces を用いて,システムレベルとセグメントレベルの両方で説明可能かつ信頼性の高いMT評価を行う。
論文参考訳（メタデータ） (2023-03-24T05:05:03Z)
Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文参考訳（メタデータ） (2022-12-15T17:26:05Z)
Consistent Human Evaluation of Machine Translation across Language Pairs [21.81895199744468]
本稿では, 意味的等価性に着目したXSTSと呼ばれる新しい計量法と, 言語間キャリブレーション法を提案する。最大14言語対にわたる大規模評価研究において,これらの新規貢献の有効性を実証する。
論文参考訳（メタデータ） (2022-05-17T17:57:06Z)
Learning to Evaluate Translation Beyond English: BLEURT Submissions to the WMT Metrics 2020 Shared Task [30.889496911261677]
本稿では,WMT 2020 Metrics Shared Taskへのコントリビューションについて述べる。我々は、移動学習に基づくメトリクスBLEURTに基づいていくつかの提案を行う。 BLEURTの予測とYiSiの予測を組み合わせ、代替参照変換を用いて性能を向上させる方法を示す。
論文参考訳（メタデータ） (2020-10-08T23:16:26Z)
A Set of Recommendations for Assessing Human-Machine Parity in Language Translation [87.72302201375847]
我々は、ハサンらの中国語から英語への翻訳調査を再評価する。専門家による翻訳では誤りが著しく少なかった。
論文参考訳（メタデータ） (2020-04-03T17:49:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。