論文の概要: With Little Power Comes Great Responsibility
- arxiv url: http://arxiv.org/abs/2010.06595v1
- Date: Tue, 13 Oct 2020 18:00:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 22:27:12.128036
- Title: With Little Power Comes Great Responsibility
- Title(参考訳): 小さな力で大きな責任が生まれる
- Authors: Dallas Card and Peter Henderson and Urvashi Khandelwal and Robin Jia
and Kyle Mahowald and Dan Jurafsky
- Abstract要約: アンダーパワー実験により、統計的ノイズと有意義なモデル改善の違いを識別することがより困難になる。
小さなテストセットは、ほとんどの試行錯誤が、最先端のモデルと比較しても、十分なパワーが得られないことを意味している。
機械翻訳では,2000文の典型的テストセットが約75%のパワーで1 BLEU点の差を検出する。
- 参考スコア(独自算出の注目度): 54.96675741328462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite its importance to experimental design, statistical power (the
probability that, given a real effect, an experiment will reject the null
hypothesis) has largely been ignored by the NLP community. Underpowered
experiments make it more difficult to discern the difference between
statistical noise and meaningful model improvements, and increase the chances
of exaggerated findings. By meta-analyzing a set of existing NLP papers and
datasets, we characterize typical power for a variety of settings and conclude
that underpowered experiments are common in the NLP literature. In particular,
for several tasks in the popular GLUE benchmark, small test sets mean that most
attempted comparisons to state of the art models will not be adequately
powered. Similarly, based on reasonable assumptions, we find that the most
typical experimental design for human rating studies will be underpowered to
detect small model differences, of the sort that are frequently studied. For
machine translation, we find that typical test sets of 2000 sentences have
approximately 75% power to detect differences of 1 BLEU point. To improve the
situation going forward, we give an overview of best practices for power
analysis in NLP and release a series of notebooks to assist with future power
analyses.
- Abstract(参考訳): 実験設計において重要であるにもかかわらず、統計力(実効が与えられた場合、実験はヌル仮説を否定する確率)はNLPコミュニティによって無視されている。
アンダーパワー実験により、統計的ノイズと有意義なモデル改善の違いを識別し、誇張された発見の可能性を高めることがより困難になる。
既存のNLP論文やデータセットをメタアナライズすることにより、さまざまな設定の典型的なパワーを特徴づけ、低パワー実験はNLP文献に共通していると結論付ける。
特に、人気の高いGLUEベンチマークのいくつかのタスクでは、小さなテストセットは、ほとんどの試行錯誤が、最先端のモデルとの比較を適切に動かさないことを意味する。
同様に、合理的な仮定に基づいて、人間の評価研究における最も典型的な実験設計は、しばしば研究されるような小さなモデルの違いを検出するために過小評価される。
機械翻訳では,2000文の典型的テストセットが約75%のパワーで1 BLEU点の差を検出する。
今後の状況を改善するため,NLPにおける電力分析のベストプラクティスの概要と,今後の電力分析を支援する一連のノートブックをリリースする。
関連論文リスト
- Strength of statistical evidence for genuine tripartite nonlocality [0.0]
ネットワーク非局所性の最近の進歩は、局所操作の概念と共有ランダム性に基づく真のマルチパーティライト非局所性(LOSR-GMNL)につながっている。
本稿では,2つのサブセットがリソースを2つに分けて共有し,各パーティが無制限に共有されたランダム性にアクセスできるネットワークにおいて,相関を示すことが目的である三部作シナリオに焦点を当てる。
論文 参考訳(メタデータ) (2024-07-28T21:12:52Z) - Provably Neural Active Learning Succeeds via Prioritizing Perplexing Samples [53.95282502030541]
ニューラルネットワークベースのアクティブラーニング(NAL)は、ニューラルネットワークを使用してサンプルの小さなサブセットを選択してトレーニングする、費用対効果の高いデータ選択技術である。
我々は、機能学習の観点から、両方のクエリ基準ベースのNALの成功について、統一的な説明を提供することにより、一歩前進させようとする。
論文 参考訳(メタデータ) (2024-06-06T10:38:01Z) - Using Auxiliary Data to Boost Precision in the Analysis of A/B Tests on
an Online Educational Platform: New Data and New Results [1.5293427903448025]
A/Bテストでは、小さなサンプルであってもバイアスや正確な統計的推測を伴わずに因果効果を推定できる。
近年の方法論的な進歩は、設計に基づく因果推定と、実験に参加していない歴史的ユーザからのリッチログデータの機械学習モデルとの結合により、パワーと統計的精度が大幅に向上することを示してきた。
また,A/B試験試料の残余が非表現である場合においても,サブグループ効果を推定するためのゲインがさらに大きくなり,成層後個体群影響推定値にまで拡張できることが示唆された。
論文 参考訳(メタデータ) (2023-06-09T21:54:36Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - An Empirical Study on the Language Modal in Visual Question Answering [31.692905677913068]
ドメイン内エクスペリエンスからアウト・オブ・ディストリビューションデータへの一般化は、AIドメインにおいて最重要事項である。
本稿では,VQAの性能に及ぼす言語モダリティの影響について,新たな知見を提供する。
論文 参考訳(メタデータ) (2023-05-17T11:56:40Z) - Empirical Design in Reinforcement Learning [23.873958977534993]
現在、数十のタスクに対して数百万のパラメータを持つエージェントのベンチマークが一般的であり、それぞれが30日間の経験に相当するものを使用している。
これらの実験の規模は、特にアルゴリズムの比較において、適切な統計的証拠の必要性と矛盾することが多い。
この写本は、行動への呼びかけと、強化学習において優れた実験を行うための包括的なリソースの両方を表現している。
論文 参考訳(メタデータ) (2023-04-03T19:32:24Z) - Square One Bias in NLP: Towards a Multi-Dimensional Exploration of the
Research Manifold [88.83876819883653]
我々は、最近のNLP研究論文のマニュアル分類を通して、これが事実であることを示す。
NLP研究は正方形ではなく、精度だけでなく、公平性や解釈可能性にも焦点をあてる。
論文 参考訳(メタデータ) (2022-06-20T13:04:23Z) - Expected Validation Performance and Estimation of a Random Variable's
Maximum [48.83713377993604]
予測された検証性能に対する3つの統計的推定器を解析する。
偏りのない推定器は最も分散度が高く、最小分散度を持つ推定器は最大のバイアスを持つ。
2つの偏りのある推定器は、最も少ない誤った結論につながる。
論文 参考訳(メタデータ) (2021-10-01T18:48:47Z) - Challenges in Statistical Analysis of Data Collected by a Bandit
Algorithm: An Empirical Exploration in Applications to Adaptively Randomized
Experiments [11.464963616709671]
多腕バンディットアルゴリズムは、適応的ランダム化実験に有用であると何十年も議論されてきた。
バンディットアルゴリズムThompson Sampling (TS) を用いて, 3つの大学で適応実験を行った。
TSを用いたデータ収集はFalse Positive Rate(FPR)とFalse Negative Rate(FNR)を2倍にすることができることを示す。
論文 参考訳(メタデータ) (2021-03-22T22:05:18Z) - Predicting Performance for Natural Language Processing Tasks [128.34208911925424]
実験条件を入力として,NLP実験の評価スコアを予測する回帰モデルを構築した。
9つの異なるNLPタスクを実験した結果、予測器は目に見えない言語や異なるモデリングアーキテクチャに対して有意義な予測を生成できることがわかった。
論文 参考訳(メタデータ) (2020-05-02T16:02:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。