論文の概要: Missing Information, Unresponsive Authors, Experimental Flaws: The
Impossibility of Assessing the Reproducibility of Previous Human Evaluations
in NLP
- arxiv url: http://arxiv.org/abs/2305.01633v1
- Date: Tue, 2 May 2023 17:46:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-03 13:18:48.075059
- Title: Missing Information, Unresponsive Authors, Experimental Flaws: The
Impossibility of Assessing the Reproducibility of Previous Human Evaluations
in NLP
- Title(参考訳): 情報不足、無反応著者、実験欠陥:nlpにおける過去のヒト評価の再現性評価の不可能性
- Authors: Anya Belz, Craig Thomson, Ehud Reiter, Gavin Abercrombie, Jose M.
Alonso-Moral, Mohammad Arvan, Jackie Cheung, Mark Cieliebak, Elizabeth Clark,
Kees van Deemter, Tanvi Dinkar, Ond\v{r}ej Du\v{s}ek, Steffen Eger, Qixiang
Fang, Albert Gatt, Dimitra Gkatzia, Javier Gonz\'alez-Corbelle, Dirk Hovy,
Manuela H\"urlimann, Takumi Ito, John D. Kelleher, Filip Klubicka, Huiyuan
Lai, Chris van der Lee, Emiel van Miltenburg, Yiru Li, Saad Mahamood, Margot
Mieskes, Malvina Nissim, Natalie Parde, Ond\v{r}ej Pl\'atek, Verena Rieser,
Pablo Mosteiro Romero, Joel Tetreault, Antonio Toral, Xiaojun Wan, Leo
Wanner, Lewis Watson, Diyi Yang
- Abstract要約: 13%の論文は (i) 再生の障壁が十分に低く、 (ii) 再生のために考慮すべき十分な入手可能な情報を持っていた。
その結果,コーディネート・リサーチ・デザインを再現的アプローチから標準化的・再生産的アプローチに変更しなければならなかった。
- 参考スコア(独自算出の注目度): 84.21269583638616
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We report our efforts in identifying a set of previous human evaluations in
NLP that would be suitable for a coordinated study examining what makes human
evaluations in NLP more/less reproducible. We present our results and findings,
which include that just 13\% of papers had (i) sufficiently low barriers to
reproduction, and (ii) enough obtainable information, to be considered for
reproduction, and that all but one of the experiments we selected for
reproduction was discovered to have flaws that made the meaningfulness of
conducting a reproduction questionable. As a result, we had to change our
coordinated study design from a reproduce approach to a
standardise-then-reproduce-twice approach. Our overall (negative) finding that
the great majority of human evaluations in NLP is not repeatable and/or not
reproducible and/or too flawed to justify reproduction, paints a dire picture,
but presents an opportunity for a rethink about how to design and report human
evaluations in NLP.
- Abstract(参考訳): 本研究は,NLPにおける人的評価を再現可能なものにするために,NLPにおける人的評価の集合を同定する取り組みについて報告する。
論文の13%に過ぎなかったことを含む結果と調査結果を提示する。
(i)生殖の障壁が十分に低いこと、
(ii)再現のために考慮すべき十分な情報と、再生のために選択した実験のうちの1つを除くすべてのものが、再生を行う意義に疑問を呈する欠陥があることが判明した。
その結果, コーディネート学習設計を, 再現アプローチから標準化・再生産-twiceアプローチに変更しなければならなかった。
我々の総合的な(否定的な)発見は、NLPにおける人間の評価の大部分は再現可能ではなく、再現可能でもなく、複製を正当化するには欠陥が多すぎるということであり、恐ろしい絵を描くが、NLPにおける人間の評価を設計し、レポートする方法を再考する機会を与える。
関連論文リスト
- ReproHum #0087-01: Human Evaluation Reproduction Report for Generating Fact Checking Explanations [16.591822946975547]
本稿では,人間の評価に関するNLP研究の成果を再現する。
その結果,本研究の成果と再現性の間に類似したパターンが見られた。
論文 参考訳(メタデータ) (2024-04-26T15:31:25Z) - Human Feedback is not Gold Standard [28.63384327791185]
我々は、トレーニングと評価の両方において、人間のフィードバックの使用を批判的に分析する。
選好スコアはかなり良いカバレッジを持っているが、事実性のような重要な側面は低く表現されている。
論文 参考訳(メタデータ) (2023-09-28T11:18:20Z) - With a Little Help from the Authors: Reproducing Human Evaluation of an
MT Error Detector [4.636982694364995]
本研究は,Vamvas and Sennrich (2022) の論文で提示された人体評価実験の結果を再現し, オーバートランスレーションとアンダートランスレーションを検出する自動システムの評価を行った。
著者らが提供したドキュメンテーションやコードの品質は高いが、正確な実験的なセットアップを再現し、改善のためのレコメンデーションを提供する際に見つかったいくつかの問題について議論する。
論文 参考訳(メタデータ) (2023-08-12T11:00:59Z) - Learning and Evaluating Human Preferences for Conversational Head
Generation [101.89332968344102]
そこで我々は,異なる次元の定量的評価に基づいて,人間の嗜好を適合させる学習ベース評価尺度であるPreference Score(PS)を提案する。
PSは人間のアノテーションを必要とせずに定量的評価を行うことができる。
論文 参考訳(メタデータ) (2023-07-20T07:04:16Z) - FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long
Form Text Generation [176.56131810249602]
大規模言語モデル(LM)が生成する長文の事実性を評価することは簡単ではない。
FACTSCOREは、世代を一連の原子事実に分解し、信頼できる知識ソースによって支持される原子事実の割合を計算する新しい評価手法である。
論文 参考訳(メタデータ) (2023-05-23T17:06:00Z) - Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。
LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文 参考訳(メタデータ) (2023-05-03T07:28:50Z) - Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural
Language Generation [68.9440575276396]
この調査は、人間のフィードバックを利用して自然言語生成を改善した最近の研究の概要を提供することを目的としている。
まず、フィードバックの形式化を包括的に導入し、この形式化に続いて既存の分類学研究を特定・整理する。
第二に、フィードバックを形式や目的によってどのように記述するかを議論し、フィードバック(トレーニングやデコード)を直接使用したり、フィードバックモデルをトレーニングしたりするための2つのアプローチについて取り上げる。
第3に、AIフィードバックの生まれたばかりの分野の概要を紹介します。これは、大きな言語モデルを利用して、一連の原則に基づいて判断し、必要最小限にします。
論文 参考訳(メタデータ) (2023-05-01T17:36:06Z) - Toward Verifiable and Reproducible Human Evaluation for Text-to-Image
Generation [35.8129864412223]
本稿では,標準化されたヒューマン評価プロトコルを提案する。
本研究では,現在の自動測定法が人間の知覚と相容れないことを実験的に示す。
人間の評価実験を確実かつ決定的に設計するための洞察を提供する。
論文 参考訳(メタデータ) (2023-04-04T14:14:16Z) - Near-Negative Distinction: Giving a Second Life to Human Evaluation
Datasets [95.4182455942628]
本研究では,従来のアノテーションをNNDテストに再利用するNear-Negative Distinction(NND)を提案する。
NNDテストでは、NLGモデルは既知の誤りのあるほぼ負の候補よりも高品質な出力候補に高い確率で配置しなければならない。
NND は標準的な NLG 評価指標よりも,人間の判断との相関性が高いことを示す。
論文 参考訳(メタデータ) (2022-05-13T20:02:53Z) - Quantified Reproducibility Assessment of NLP Results [5.181381829976355]
本稿では,メタロロジーの概念と定義に基づいて量化アセスメント(QRA)を実行する手法について述べる。
我々は18のシステムと評価尺度の組み合わせでQRAを試験し、それぞれに元の結果と1から7の再生結果が得られた。
提案したQRA法は, 再現性スコアを再現性スコアと同等に生成し, 再現性スコアと再現性スコアを比較検討した。
論文 参考訳(メタデータ) (2022-04-12T17:22:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。