論文の概要: The Great Misalignment Problem in Human Evaluation of NLP Methods
- arxiv url: http://arxiv.org/abs/2104.05361v1
- Date: Mon, 12 Apr 2021 11:26:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 14:20:23.903247
- Title: The Great Misalignment Problem in Human Evaluation of NLP Methods
- Title(参考訳): NLP手法の人的評価における大きなミスアライメント問題
- Authors: Mika H\"am\"al\"ainen and Khalid Alnajjar
- Abstract要約: acl 2020で公開された10のランダムなサンプル論文を調査して,この誤用問題を検証した。
問題の定義、方法、評価の面で1つの論文が完全に並んでいました。
2つの論文だけが、その手法でモデル化されたものと一致した人間の評価を提示した。
- 参考スコア(独自算出の注目度): 0.685316573653194
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We outline the Great Misalignment Problem in natural language processing
research, this means simply that the problem definition is not in line with the
method proposed and the human evaluation is not in line with the definition nor
the method. We study this misalignment problem by surveying 10 randomly sampled
papers published in ACL 2020 that report results with human evaluation. Our
results show that only one paper was fully in line in terms of problem
definition, method and evaluation. Only two papers presented a human evaluation
that was in line with what was modeled in the method. These results highlight
that the Great Misalignment Problem is a major one and it affects the validity
and reproducibility of results obtained by a human evaluation.
- Abstract(参考訳): 本稿では,自然言語処理研究における大過ち問題について概説する。これは,問題定義が提案手法と一致せず,人的評価が定義や方法と一致していないことを意味する。
本研究では,ACL 2020で公表された10件の無作為なサンプルを調査し,人体評価の結果を報告する。
その結果,問題定義,方法,評価の面では,1つの論文が完全に一致していることがわかった。
2つの論文だけが、その手法でモデル化されたものと一致した人間の評価を提示した。
これらの結果から, 大不一致問題は大きな問題であり, 評価結果の妥当性と再現性に影響を及ぼすことが示唆された。
関連論文リスト
- Measuring the Reliability of Causal Probing Methods: Tradeoffs, Limitations, and the Plight of Nullifying Interventions [3.173096780177902]
因果探索は、大きな言語モデルのような基礎モデルを理解するためのアプローチである。
本稿では、因果探索介入の信頼性を評価するための一般的な実証分析フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-28T03:45:49Z) - Improving Bias Correction Standards by Quantifying its Effects on Treatment Outcomes [54.18828236350544]
Propensity score matching (PSM) は、分析のために同等の人口を選択することで選択バイアスに対処する。
異なるマッチング手法は、すべての検証基準を満たす場合でも、同じタスクに対する平均処理効果(ATE)を著しく異なるものにすることができる。
この問題に対処するため,新しい指標A2Aを導入し,有効試合数を削減した。
論文 参考訳(メタデータ) (2024-07-20T12:42:24Z) - Too Good To Be True: performance overestimation in (re)current practices
for Human Activity Recognition [49.1574468325115]
データセグメンテーションのためのスライディングウィンドウと、標準のランダムk倍のクロスバリデーションが続くと、バイアスのある結果が得られる。
この問題に対する科学界の認識を高めることは重要であり、その否定的な影響は見落とされつつある。
異なるタイプのデータセットと異なるタイプの分類モデルを用いたいくつかの実験により、問題を示し、メソッドやデータセットとは独立して持続することを示すことができる。
論文 参考訳(メタデータ) (2023-10-18T13:24:05Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z) - Large Language Models are not Fair Evaluators [60.27164804083752]
候補回答の品質ランキングは,文脈の出現順序を変えることで容易にハックできることがわかった。
この操作により、評価結果をスキューし、一方のモデルを他方よりもかなり優れているようにすることができる。
この問題を緩和するための3つのシンプルかつ効果的な戦略を持つフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T07:41:03Z) - Missing Information, Unresponsive Authors, Experimental Flaws: The
Impossibility of Assessing the Reproducibility of Previous Human Evaluations
in NLP [84.08476873280644]
13%の論文は (i) 再生の障壁が十分に低く、 (ii) 再生のために考慮すべき十分な入手可能な情報を持っていた。
その結果,コーディネート・リサーチ・デザインを再現的アプローチから標準化的・再生産的アプローチに変更しなければならなかった。
論文 参考訳(メタデータ) (2023-05-02T17:46:12Z) - Naturalistic Causal Probing for Morpho-Syntax [76.83735391276547]
スペインにおける実世界のデータに対する入力レベルの介入に対する自然主義的戦略を提案する。
提案手法を用いて,共同設立者から文章中の形態・症状の特徴を抽出する。
本研究では,事前学習したモデルから抽出した文脈化表現に対する性別と数字の因果効果を解析するために,本手法を適用した。
論文 参考訳(メタデータ) (2022-05-14T11:47:58Z) - Human Evaluation of Creative NLG Systems: An Interdisciplinary Survey on
Recent Papers [0.685316573653194]
創造的な自然言語生成に関する論文の中で,人間の評価について調査する。
最も典型的な人間の評価法は、通常5点の尺度で、スケールされたサーベイである。
最もよく評価されるパラメータは、意味、統語的正しさ、新規性、関連性、感情的価値である。
論文 参考訳(メタデータ) (2021-07-31T18:54:30Z) - Operationalizing Complex Causes: A Pragmatic View of Mediation [23.47541183179271]
複素対象に対する因果応答推定の問題点について検討する。
本稿では,粗利介入の因果反応を予測するための2段階の手法を提案する。
我々は,新たな治療体制の限られたデータを用いて,原油介入の効果を効率的に推定することができることを実証した。
論文 参考訳(メタデータ) (2021-06-09T13:52:38Z) - If Only We Had Better Counterfactual Explanations: Five Key Deficits to
Rectify in the Evaluation of Counterfactual XAI Techniques [13.658942796267015]
文献に報告された100の異なる非実用説明方法を調査した。
これらの手法のわずか21%がユーザテストである。
これらの手法の評価における5つの重要な欠点について詳述する。
論文 参考訳(メタデータ) (2021-02-26T09:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。