論文の概要: Quantified Reproducibility Assessment of NLP Results
- arxiv url: http://arxiv.org/abs/2204.05961v1
- Date: Tue, 12 Apr 2022 17:22:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 12:44:58.598253
- Title: Quantified Reproducibility Assessment of NLP Results
- Title(参考訳): NLP結果の定量再現性評価
- Authors: Anya Belz, Maja Popovi\'c and Simon Mille
- Abstract要約: 本稿では,メタロロジーの概念と定義に基づいて量化アセスメント(QRA)を実行する手法について述べる。
我々は18のシステムと評価尺度の組み合わせでQRAを試験し、それぞれに元の結果と1から7の再生結果が得られた。
提案したQRA法は, 再現性スコアを再現性スコアと同等に生成し, 再現性スコアと再現性スコアを比較検討した。
- 参考スコア(独自算出の注目度): 5.181381829976355
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper describes and tests a method for carrying out quantified
reproducibility assessment (QRA) that is based on concepts and definitions from
metrology. QRA produces a single score estimating the degree of reproducibility
of a given system and evaluation measure, on the basis of the scores from, and
differences between, different reproductions. We test QRA on 18 system and
evaluation measure combinations (involving diverse NLP tasks and types of
evaluation), for each of which we have the original results and one to seven
reproduction results. The proposed QRA method produces
degree-of-reproducibility scores that are comparable across multiple
reproductions not only of the same, but of different original studies. We find
that the proposed method facilitates insights into causes of variation between
reproductions, and allows conclusions to be drawn about what changes to system
and/or evaluation design might lead to improved reproducibility.
- Abstract(参考訳): 本稿では,計量学の概念と定義に基づく量化再現性評価(qra)を行う手法について述べる。
QRAは、所定のシステムの再現可能性の度合いと評価尺度を、異なる再生のスコアと差に基づいて推定する単一スコアを生成する。
我々は18のシステム上でQRAを試験し、それぞれに元の結果と1~7の再生結果を持つ様々なNLPタスクと評価のタイプを含む)評価指標の組み合わせを検証した。
提案するqra法では, 同一ではなく, 異なるオリジナル研究の複数の再現に匹敵する再現度スコアを生成する。
提案手法は,再現性の違いの原因を把握し,システムや評価設計の変更が再現性の向上につながる可能性について結論を導き出す。
関連論文リスト
- HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。
HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。
本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文 参考訳(メタデータ) (2024-12-20T03:26:47Z) - ReproHum #0087-01: Human Evaluation Reproduction Report for Generating Fact Checking Explanations [16.591822946975547]
本稿では,人間の評価に関するNLP研究の成果を再現する。
その結果,本研究の成果と再現性の間に類似したパターンが見られた。
論文 参考訳(メタデータ) (2024-04-26T15:31:25Z) - With a Little Help from the Authors: Reproducing Human Evaluation of an
MT Error Detector [4.636982694364995]
本研究は,Vamvas and Sennrich (2022) の論文で提示された人体評価実験の結果を再現し, オーバートランスレーションとアンダートランスレーションを検出する自動システムの評価を行った。
著者らが提供したドキュメンテーションやコードの品質は高いが、正確な実験的なセットアップを再現し、改善のためのレコメンデーションを提供する際に見つかったいくつかの問題について議論する。
論文 参考訳(メタデータ) (2023-08-12T11:00:59Z) - A Covariate-Adjusted Homogeneity Test with Application to Facial
Recognition Accuracy Assessment [0.3222802562733786]
通常のスコアは、医療画像研究やブラックボックス法医学研究で一般的に見られる。
本研究は, 5つのグループ間で統計的に有意な差異を同定するために, 顔認識実験に適用した。
論文 参考訳(メタデータ) (2023-07-17T21:16:26Z) - Missing Information, Unresponsive Authors, Experimental Flaws: The
Impossibility of Assessing the Reproducibility of Previous Human Evaluations
in NLP [84.08476873280644]
13%の論文は (i) 再生の障壁が十分に低く、 (ii) 再生のために考慮すべき十分な入手可能な情報を持っていた。
その結果,コーディネート・リサーチ・デザインを再現的アプローチから標準化的・再生産的アプローチに変更しなければならなかった。
論文 参考訳(メタデータ) (2023-05-02T17:46:12Z) - Social Biases in Automatic Evaluation Metrics for NLG [53.76118154594404]
本稿では,単語埋め込みアソシエーションテスト(WEAT)と文埋め込みアソシエーションテスト(SEAT)に基づく評価手法を提案する。
我々は、画像キャプションやテキスト要約タスクにおける性別バイアスの影響を調査するために、性別対応メタ評価データセットを構築した。
論文 参考訳(メタデータ) (2022-10-17T08:55:26Z) - Rethinking and Refining the Distinct Metric [61.213465863627476]
我々は、その期待に基づいて異なるトークンの数を再スケーリングすることで、異なるスコアの計算を洗練する。
実験的および理論的証拠の両面から,本手法が元の異なるスコアで示されるバイアスを効果的に除去することを示す。
論文 参考訳(メタデータ) (2022-02-28T07:36:30Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - How to Evaluate a Summarizer: Study Design and Statistical Analysis for
Manual Linguistic Quality Evaluation [3.624563211765782]
評価手法の最良の選択は、ある側面から別の側面まで様々であることを示す。
その結果,アノテータの総数は研究力に強い影響を及ぼす可能性が示唆された。
現在の統計解析手法では、I型エラー率を最大8倍にすることができる。
論文 参考訳(メタデータ) (2021-01-27T10:14:15Z) - Unsupervised Reference-Free Summary Quality Evaluation via Contrastive
Learning [66.30909748400023]
教師なしコントラスト学習により,参照要約を使わずに要約品質を評価することを提案する。
具体的には、BERTに基づく言語的品質と意味情報の両方をカバーする新しい指標を設計する。
ニューズルームとCNN/デイリーメールの実験では,新たな評価手法が参照サマリーを使わずに他の指標よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-10-05T05:04:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。