論文の概要: With a Little Help from the Authors: Reproducing Human Evaluation of an
MT Error Detector
- arxiv url: http://arxiv.org/abs/2308.06527v1
- Date: Sat, 12 Aug 2023 11:00:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 16:54:39.598696
- Title: With a Little Help from the Authors: Reproducing Human Evaluation of an
MT Error Detector
- Title(参考訳): 著者の助けを借りて:MTエラー検知器の人間による評価を再現する
- Authors: Ond\v{r}ej Pl\'atek and Mateusz Lango and Ond\v{r}ej Du\v{s}ek
- Abstract要約: 本研究は,Vamvas and Sennrich (2022) の論文で提示された人体評価実験の結果を再現し, オーバートランスレーションとアンダートランスレーションを検出する自動システムの評価を行った。
著者らが提供したドキュメンテーションやコードの品質は高いが、正確な実験的なセットアップを再現し、改善のためのレコメンデーションを提供する際に見つかったいくつかの問題について議論する。
- 参考スコア(独自算出の注目度): 4.636982694364995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work presents our efforts to reproduce the results of the human
evaluation experiment presented in the paper of Vamvas and Sennrich (2022),
which evaluated an automatic system detecting over- and undertranslations
(translations containing more or less information than the original) in machine
translation (MT) outputs. Despite the high quality of the documentation and
code provided by the authors, we discuss some problems we found in reproducing
the exact experimental setup and offer recommendations for improving
reproducibility. Our replicated results generally confirm the conclusions of
the original study, but in some cases, statistically significant differences
were observed, suggesting a high variability of human annotation.
- Abstract(参考訳): 本研究では,Vamvas and Sennrich (2022) の論文で提示された人体評価実験の結果を再現し,機械翻訳(MT)出力におけるオーバー・アンダー翻訳(元より少ない情報を含む翻訳)を検出する自動システムの評価を行った。
著者らが提供したドキュメントやコードの品質は高いが,本論文では再現性向上のための推奨事項として,実験的なセットアップを再現する上での問題点について論じる。
再現された結果は,本研究の結論を概ね裏付けるものであるが,統計的に有意な差が見られ,ヒトのアノテーションの多様性が高いことが示唆された。
関連論文リスト
- ReproHum #0087-01: Human Evaluation Reproduction Report for Generating Fact Checking Explanations [16.591822946975547]
本稿では,人間の評価に関するNLP研究の成果を再現する。
その結果,本研究の成果と再現性の間に類似したパターンが見られた。
論文 参考訳(メタデータ) (2024-04-26T15:31:25Z) - Physician Detection of Clinical Harm in Machine Translation: Quality
Estimation Aids in Reliance and Backtranslation Identifies Critical Errors [27.13497855061732]
そこで本研究では,ハイテイクな医療環境における意思決定をシミュレーションしたヒト実験を用いて,生体内品質評価のフィードバックを評価する。
品質評価はMTへの適切な依存を改善するが、逆翻訳はQE単独で見逃されるより臨床的に有害なエラーを検出するのに役立つ。
論文 参考訳(メタデータ) (2023-10-25T18:44:14Z) - Missing Information, Unresponsive Authors, Experimental Flaws: The
Impossibility of Assessing the Reproducibility of Previous Human Evaluations
in NLP [84.08476873280644]
13%の論文は (i) 再生の障壁が十分に低く、 (ii) 再生のために考慮すべき十分な入手可能な情報を持っていた。
その結果,コーディネート・リサーチ・デザインを再現的アプローチから標準化的・再生産的アプローチに変更しなければならなかった。
論文 参考訳(メタデータ) (2023-05-02T17:46:12Z) - Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models [57.80514758695275]
機械翻訳(MT)の品質を評価するために,大規模言語モデル(LLM)を用いることで,システムレベルでの最先端のパフォーマンスを実現する。
我々はtextbftexttError Analysis Prompting (EAPrompt) と呼ばれる新しいプロンプト手法を提案する。
本手法は,多次元品質指標 (MQM) とtextitproduces を用いて,システムレベルとセグメントレベルの両方で説明可能かつ信頼性の高いMT評価を行う。
論文 参考訳(メタデータ) (2023-03-24T05:05:03Z) - Quantified Reproducibility Assessment of NLP Results [5.181381829976355]
本稿では,メタロロジーの概念と定義に基づいて量化アセスメント(QRA)を実行する手法について述べる。
我々は18のシステムと評価尺度の組み合わせでQRAを試験し、それぞれに元の結果と1から7の再生結果が得られた。
提案したQRA法は, 再現性スコアを再現性スコアと同等に生成し, 再現性スコアと再現性スコアを比較検討した。
論文 参考訳(メタデータ) (2022-04-12T17:22:46Z) - As Easy as 1, 2, 3: Behavioural Testing of NMT Systems for Numerical
Translation [51.20569527047729]
誤訳された数字は、金銭的損失や医療的誤報などの深刻な影響を引き起こす可能性がある。
本研究では,ニューラルネットワーク翻訳システムの動作テストによる数値テキストへの堅牢性に関する総合的な評価法を開発した。
論文 参考訳(メタデータ) (2021-07-18T04:09:47Z) - Reproducibility Companion Paper: Knowledge Enhanced Neural Fashion Trend
Forecasting [78.046352507802]
Python実装を使用した実験の複製を可能にするアーティファクトを提供する。
本稿では,本論文で実施した実験を再現し,前報と同様の性能を得る。
論文 参考訳(メタデータ) (2021-05-25T10:53:11Z) - Manual Evaluation Matters: Reviewing Test Protocols of Distantly
Supervised Relation Extraction [61.48964753725744]
2つのDS-REデータセット(NYT10とWiki20)に対して手動でアノテートしたテストセットを構築し、いくつかの競合モデルを徹底的に評価する。
その結果,手動による評価は,自動的な評価とは全く異なる結論を示すことがわかった。
論文 参考訳(メタデータ) (2021-05-20T06:55:40Z) - Experts, Errors, and Context: A Large-Scale Study of Human Evaluation
for Machine Translation [19.116396693370422]
本稿では,多次元品質指標フレームワークに基づく明示的誤り分析に基づく評価手法を提案する。
我々はこれまでで最大のMQM研究を行い、WMT 2020の共通タスクから上位システムの出力を2つの言語ペアで評価した。
得られたデータを広範囲に分析し,wmtの群集作業員が確立したシステムとは,評価システムのランキングが実質的に異なる点を見出した。
論文 参考訳(メタデータ) (2021-04-29T16:42:09Z) - A Set of Recommendations for Assessing Human-Machine Parity in Language
Translation [87.72302201375847]
我々は、ハサンらの中国語から英語への翻訳調査を再評価する。
専門家による翻訳では誤りが著しく少なかった。
論文 参考訳(メタデータ) (2020-04-03T17:49:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。