Fugu-MT 論文翻訳(概要): Missing Information, Unresponsive Authors, Experimental Flaws: The Impossibility of Assessing the Reproducibility of Previous Human Evaluations in NLP

論文の概要: Missing Information, Unresponsive Authors, Experimental Flaws: The Impossibility of Assessing the Reproducibility of Previous Human Evaluations in NLP

arxiv url: http://arxiv.org/abs/2305.01633v2
Date: Mon, 7 Aug 2023 09:54:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-08 22:59:57.249956
Title: Missing Information, Unresponsive Authors, Experimental Flaws: The Impossibility of Assessing the Reproducibility of Previous Human Evaluations in NLP
Title（参考訳）: 情報不足、無反応著者、実験欠陥:nlpにおける過去のヒト評価の再現性評価の不可能性
Authors: Anya Belz, Craig Thomson, Ehud Reiter, Gavin Abercrombie, Jose M. Alonso-Moral, Mohammad Arvan, Anouck Braggaar, Mark Cieliebak, Elizabeth Clark, Kees van Deemter, Tanvi Dinkar, Ond\v{r}ej Du\v{s}ek, Steffen Eger, Qixiang Fang, Mingqi Gao, Albert Gatt, Dimitra Gkatzia, Javier Gonz\'alez-Corbelle, Dirk Hovy, Manuela H\"urlimann, Takumi Ito, John D. Kelleher, Filip Klubicka, Emiel Krahmer, Huiyuan Lai, Chris van der Lee, Yiru Li, Saad Mahamood, Margot Mieskes, Emiel van Miltenburg, Pablo Mosteiro, Malvina Nissim, Natalie Parde, Ond\v{r}ej Pl\'atek, Verena Rieser, Jie Ruan, Joel Tetreault, Antonio Toral, Xiaojun Wan, Leo Wanner, Lewis Watson, Diyi Yang
Abstract要約: 13%の論文は (i) 再生の障壁が十分に低く、 (ii) 再生のために考慮すべき十分な入手可能な情報を持っていた。その結果,コーディネート・リサーチ・デザインを再現的アプローチから標準化的・再生産的アプローチに変更しなければならなかった。
参考スコア（独自算出の注目度）: 84.08476873280644
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: We report our efforts in identifying a set of previous human evaluations in NLP that would be suitable for a coordinated study examining what makes human evaluations in NLP more/less reproducible. We present our results and findings, which include that just 13\% of papers had (i) sufficiently low barriers to reproduction, and (ii) enough obtainable information, to be considered for reproduction, and that all but one of the experiments we selected for reproduction was discovered to have flaws that made the meaningfulness of conducting a reproduction questionable. As a result, we had to change our coordinated study design from a reproduce approach to a standardise-then-reproduce-twice approach. Our overall (negative) finding that the great majority of human evaluations in NLP is not repeatable and/or not reproducible and/or too flawed to justify reproduction, paints a dire picture, but presents an opportunity for a rethink about how to design and report human evaluations in NLP.
Abstract（参考訳）: 本研究は,NLPにおける人的評価を再現可能なものにするために,NLPにおける人的評価の集合を同定する取り組みについて報告する。論文の13%に過ぎなかったことを含む結果と調査結果を提示する。 (i)生殖の障壁が十分に低いこと、 (ii)再現のために考慮すべき十分な情報と、再生のために選択した実験のうちの1つを除くすべてのものが、再生を行う意義に疑問を呈する欠陥があることが判明した。その結果, コーディネート学習設計を, 再現アプローチから標準化・再生産-twiceアプローチに変更しなければならなかった。我々の総合的な(否定的な)発見は、NLPにおける人間の評価の大部分は再現可能ではなく、再現可能でもなく、複製を正当化するには欠陥が多すぎるということであり、恐ろしい絵を描くが、NLPにおける人間の評価を設計し、レポートする方法を再考する機会を与える。

関連論文リスト

QRA++: Quantified Reproducibility Assessment for Common Types of Results in Natural Language Processing [6.653947064461629]
QRA++は3段階の粒度で連続的な評価の度合いを生成する定量的な評価手法である。比較実験の3つの例にQRA++を適用して説明する。
論文参考訳（メタデータ） (2025-05-13T13:04:04Z)
ReproHum #0087-01: Human Evaluation Reproduction Report for Generating Fact Checking Explanations [16.591822946975547]
本稿では,人間の評価に関するNLP研究の成果を再現する。その結果,本研究の成果と再現性の間に類似したパターンが見られた。
論文参考訳（メタデータ） (2024-04-26T15:31:25Z)
Human Feedback is not Gold Standard [28.63384327791185]
我々は、トレーニングと評価の両方において、人間のフィードバックの使用を批判的に分析する。選好スコアはかなり良いカバレッジを持っているが、事実性のような重要な側面は低く表現されている。
論文参考訳（メタデータ） (2023-09-28T11:18:20Z)
With a Little Help from the Authors: Reproducing Human Evaluation of an MT Error Detector [4.636982694364995]
本研究は,Vamvas and Sennrich (2022) の論文で提示された人体評価実験の結果を再現し, オーバートランスレーションとアンダートランスレーションを検出する自動システムの評価を行った。著者らが提供したドキュメンテーションやコードの品質は高いが、正確な実験的なセットアップを再現し、改善のためのレコメンデーションを提供する際に見つかったいくつかの問題について議論する。
論文参考訳（メタデータ） (2023-08-12T11:00:59Z)
Learning and Evaluating Human Preferences for Conversational Head Generation [101.89332968344102]
そこで我々は,異なる次元の定量的評価に基づいて,人間の嗜好を適合させる学習ベース評価尺度であるPreference Score(PS)を提案する。 PSは人間のアノテーションを必要とせずに定量的評価を行うことができる。
論文参考訳（メタデータ） (2023-07-20T07:04:16Z)
FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation [176.56131810249602]
大規模言語モデル(LM)が生成する長文の事実性を評価することは簡単ではない。 FACTSCOREは、世代を一連の原子事実に分解し、信頼できる知識ソースによって支持される原子事実の割合を計算する新しい評価手法である。
論文参考訳（メタデータ） (2023-05-23T17:06:00Z)
Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。 LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文参考訳（メタデータ） (2023-05-03T07:28:50Z)
Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural Language Generation [68.9440575276396]
この調査は、人間のフィードバックを利用して自然言語生成を改善した最近の研究の概要を提供することを目的としている。まず、フィードバックの形式化を包括的に導入し、この形式化に続いて既存の分類学研究を特定・整理する。第二に、フィードバックを形式や目的によってどのように記述するかを議論し、フィードバック(トレーニングやデコード)を直接使用したり、フィードバックモデルをトレーニングしたりするための2つのアプローチについて取り上げる。第3に、AIフィードバックの生まれたばかりの分野の概要を紹介します。これは、大きな言語モデルを利用して、一連の原則に基づいて判断し、必要最小限にします。
論文参考訳（メタデータ） (2023-05-01T17:36:06Z)
Toward Verifiable and Reproducible Human Evaluation for Text-to-Image Generation [35.8129864412223]
本稿では,標準化されたヒューマン評価プロトコルを提案する。本研究では,現在の自動測定法が人間の知覚と相容れないことを実験的に示す。人間の評価実験を確実かつ決定的に設計するための洞察を提供する。
論文参考訳（メタデータ） (2023-04-04T14:14:16Z)
Near-Negative Distinction: Giving a Second Life to Human Evaluation Datasets [95.4182455942628]
本研究では,従来のアノテーションをNNDテストに再利用するNear-Negative Distinction(NND)を提案する。 NNDテストでは、NLGモデルは既知の誤りのあるほぼ負の候補よりも高品質な出力候補に高い確率で配置しなければならない。 NND は標準的な NLG 評価指標よりも,人間の判断との相関性が高いことを示す。
論文参考訳（メタデータ） (2022-05-13T20:02:53Z)
Quantified Reproducibility Assessment of NLP Results [5.181381829976355]
本稿では,メタロロジーの概念と定義に基づいて量化アセスメント(QRA)を実行する手法について述べる。我々は18のシステムと評価尺度の組み合わせでQRAを試験し、それぞれに元の結果と1から7の再生結果が得られた。提案したQRA法は, 再現性スコアを再現性スコアと同等に生成し, 再現性スコアと再現性スコアを比較検討した。
論文参考訳（メタデータ） (2022-04-12T17:22:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。