論文の概要: Reproducibility in NLP: What Have We Learned from the Checklist?
- arxiv url: http://arxiv.org/abs/2306.09562v1
- Date: Fri, 16 Jun 2023 00:39:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 15:28:39.639362
- Title: Reproducibility in NLP: What Have We Learned from the Checklist?
- Title(参考訳): nlpの再現性:チェックリストから何を学びましたか?
- Authors: Ian Magnusson, Noah A. Smith, Jesse Dodge
- Abstract要約: CLカンファレンスは2020年にNLP再現性チェックリストを作成した。
10,405件の匿名応答を調べることで,チェックリストを初めて解析する。
新たなデータを収集する申請件の44%は、受理される可能性が5%低いことがわかりました。
- 参考スコア(独自算出の注目度): 48.86370747121637
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientific progress in NLP rests on the reproducibility of researchers'
claims. The *CL conferences created the NLP Reproducibility Checklist in 2020
to be completed by authors at submission to remind them of key information to
include. We provide the first analysis of the Checklist by examining 10,405
anonymous responses to it. First, we find evidence of an increase in reporting
of information on efficiency, validation performance, summary statistics, and
hyperparameters after the Checklist's introduction. Further, we show acceptance
rate grows for submissions with more Yes responses. We find that the 44% of
submissions that gather new data are 5% less likely to be accepted than those
that did not; the average reviewer-rated reproducibility of these submissions
is also 2% lower relative to the rest. We find that only 46% of submissions
claim to open-source their code, though submissions that do have 8% higher
reproducibility score relative to those that do not, the most for any item. We
discuss what can be inferred about the state of reproducibility in NLP, and
provide a set of recommendations for future conferences, including: a) allowing
submitting code and appendices one week after the deadline, and b) measuring
dataset reproducibility by a checklist of data collection practices.
- Abstract(参考訳): nlpの科学的進歩は研究者の主張の再現性にかかっている。
the *cl conferencesは、2020年にnlp reproducibility checklistを作成し、著者が提出した重要な情報をリマインドするために完成させた。
10,405件の匿名応答を調べることで,チェックリストを初めて解析する。
まず,チェックリスト導入後の効率,検証性能,要約統計,ハイパーパラメータに関する情報の報告の増加を示す。
さらに、よりYes応答のある投稿に対する受理率の増加を示す。
新しいデータを収集した投稿の44%は、受け付けていないものに比べて5%少なく、平均的なレビュアーによる再現性も他のものに比べて2%低い。
コードのオープンソース化を主張している申請者は46%に過ぎませんが,再現性のスコアが8%高く,どの項目でも最も高い結果が得られています。
我々は,NLPにおける再現性の現状について何を推測できるかを議論し,今後の会議への推奨事項について述べる。
a) 期限の1週間後にコード及び付録の提出を許可し、
b) データ収集プラクティスのチェックリストによるデータセット再現性の測定。
関連論文リスト
- Contrastive Learning to Improve Retrieval for Real-world Fact Checking [84.57583869042791]
ファクト・チェッキング・リランカ(Contrastive Fact-Checking Reranker, CFR)を提案する。
我々はAVeriTeCデータセットを活用し、証拠文書からの人間による回答とクレームのサブクエストを注釈付けする。
データセットの精度は6%向上した。
論文 参考訳(メタデータ) (2024-10-07T00:09:50Z) - Relevance feedback strategies for recall-oriented neural information
retrieval [0.0]
本研究は、レビューの労力を削減するための、よりリコール指向のアプローチを提案する。
具体的には、ユーザのフィードバックに基づいて、関連性ランキングを反復的にランク付けする。
その結果,本手法はベースラインアプローチに比べて17.85%から59.04%のレビュー工数を削減できることがわかった。
論文 参考訳(メタデータ) (2023-11-25T19:50:41Z) - Missing Information, Unresponsive Authors, Experimental Flaws: The
Impossibility of Assessing the Reproducibility of Previous Human Evaluations
in NLP [84.08476873280644]
13%の論文は (i) 再生の障壁が十分に低く、 (ii) 再生のために考慮すべき十分な入手可能な情報を持っていた。
その結果,コーディネート・リサーチ・デザインを再現的アプローチから標準化的・再生産的アプローチに変更しなければならなかった。
論文 参考訳(メタデータ) (2023-05-02T17:46:12Z) - NLPeer: A Unified Resource for the Computational Study of Peer Review [58.71736531356398]
NLPeer - 5万以上の論文と5つの異なる会場からの1万1千件のレビューレポートからなる、初めて倫理的にソースされたマルチドメインコーパス。
従来のピアレビューデータセットを拡張し、解析および構造化された論文表現、豊富なメタデータ、バージョニング情報を含む。
我々の研究は、NLPなどにおけるピアレビューの体系的、多面的、エビデンスに基づく研究への道のりをたどっている。
論文 参考訳(メタデータ) (2022-11-12T12:29:38Z) - Retrieval Enhanced Data Augmentation for Question Answering on Privacy
Policies [74.01792675564218]
本研究では,ラベルのないポリシー文書から関連するテキストセグメントを抽出する検索モデルに基づくデータ拡張フレームワークを開発する。
拡張データの多様性と品質を改善するために,複数の事前学習言語モデル(LM)を活用し,ノイズ低減フィルタモデルでそれらをカスケードする。
PrivacyQAベンチマークの強化データを使用して、既存のベースラインを大きなマージン(10% F1)に高め、新しい最先端のF1スコアを50%達成します。
論文 参考訳(メタデータ) (2022-04-19T15:45:23Z) - Yes-Yes-Yes: Donation-based Peer Reviewing Data Collection for ACL
Rolling Review and Beyond [58.71736531356398]
本稿では、ピアレビューデータについて詳細な議論を行い、ピアレビューデータ収集のための倫理的・法的デシダータの概要を述べるとともに、最初の継続的な寄付ベースのデータ収集ワークフローを提案する。
本稿では、ACL Rolling Reviewにおいて、このワークフローの現在進行中の実装について報告し、新たに収集したデータから得られた最初の洞察を提供する。
論文 参考訳(メタデータ) (2022-01-27T11:02:43Z) - Just What do You Think You're Doing, Dave?' A Checklist for Responsible
Data Use in NLP [6.3596637237946725]
本論では,テキストデータの収集と共有に関する法的・倫理的原則と,それら間の緊張関係について論じる。
我々は、会議提出のピアレビューを標準化すると同時に、公表された研究のより詳細なビューを可能にする責任のあるデータ(再使用)の潜在的なチェックリストを提案する。
論文 参考訳(メタデータ) (2021-09-14T11:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。