論文の概要: "Medium-n studies" in computing education conferences
- arxiv url: http://arxiv.org/abs/2311.14679v2
- Date: Tue, 28 Nov 2023 14:32:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 09:48:34.521831
- Title: "Medium-n studies" in computing education conferences
- Title(参考訳): コンピューティング教育会議における「Medium-n Study」
- Authors: Michael Guerzhoy
- Abstract要約: 我々は、コンピュータサイエンス教育研究者が直面する異なる環境で、いつ、いつ、いつ、p値を計算するべきかについての考察を概説する。
本稿では,要約データを提示し,レビュアーガイドラインに関する予備的な観察を行う。
- 参考スコア(独自算出の注目度): 4.057470201629211
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Good (Frequentist) statistical practice requires that statistical tests be
performed in order to determine if the phenomenon being observed could
plausibly occur by chance if the null hypothesis is false. Good practice also
requires that a test is not performed if the study is underpowered: if the
number of observations is not sufficiently large to be able to reliably detect
the effect one hypothesizes, even if the effect exists. Running underpowered
studies runs the risk of false negative results. This creates tension in the
guidelines and expectations for computer science education conferences: while
things are clear for studies with a large number of observations, researchers
should in fact not compute p-values and perform statistical tests if the number
of observations is too small. The issue is particularly live in CSed venues,
since class sizes where those issues are salient are common. We outline the
considerations for when to compute and when not to compute p-values in
different settings encountered by computer science education researchers. We
survey the author and reviewer guidelines in different computer science
education conferences (ICER, SIGCSE TS, ITiCSE, EAAI, CompEd, Koli Calling). We
present summary data and make several preliminary observations about reviewer
guidelines: guidelines vary from conference to conference; guidelines allow for
qualitative studies, and, in some cases, experience reports, but guidelines do
not generally explicitly indicate that a paper should have at least one of (1)
an appropriately-powered statistical analysis or (2) rich qualitative
descriptions. We present preliminary ideas for addressing the tension in the
guidelines between small-n and large-n studies
- Abstract(参考訳): 良い(頻度主義的な)統計実践は、観測されている現象が偶然にヌル仮説が偽であるかどうかを判断するために統計テストを実施する必要がある。
良い実践はまた、研究が力不足である場合、テストは実行されないことを要求している:もし観測の数が十分大きくなければ、たとえその効果が存在するとしても、その効果を確実に検出できる。
動力不足の研究は誤ったネガティブな結果のリスクを負う。
これは、コンピュータサイエンス教育カンファレンスのガイドラインと期待に緊張を生じさせる: 多くの観察を持つ研究は明らかだが、研究者は実際にはp値を計算するべきではないし、観測数が少なすぎる場合は統計テストを行うべきである。
この問題は特にCSedの会場で行われている。
本稿では,計算機科学教育研究者が遭遇する異なる環境でp値を計算する場合と計算しない場合の考察について概説する。
我々は,異なるコンピュータサイエンス教育会議(ICER,SIGCSE TS,ITiCSE,EAAI,CompEd,Koli Calling)の著者およびレビュアーガイドラインを調査した。
要旨は会議から会議まで様々であり、定性的な研究が可能であり、場合によっては経験報告もあるが、そのガイドラインは、(1)適切な統計分析または(2)豊かな定性的な記述の少なくとも1つを持つことを明記してはいない。
小規模研究と大規模研究のガイドラインにおける緊張に対処するための予備的考え方について述べる。
関連論文リスト
- Ultra-imbalanced classification guided by statistical information [24.969543903532664]
我々は,エンフルトラ不均衡分類(UIC)と呼ばれる新しい定式化を提案することによって,不均衡学習に対する集団レベルのアプローチをとる。
UICでは、無限のトレーニングサンプルが利用可能であっても、損失関数は異なる振る舞いをする。
UIC下でのデータ不均衡に対して確実に抵抗できる新しい学習目標であるTunable Boosting Lossを開発した。
論文 参考訳(メタデータ) (2024-09-06T08:07:09Z) - Smoke and Mirrors in Causal Downstream Tasks [59.90654397037007]
本稿では, 治療効果推定の因果推論タスクについて検討し, 高次元観察において利害関係が記録されている。
最先端の視覚バックボーンから微調整した6つの480モデルを比較し、サンプリングとモデリングの選択が因果推定の精度に大きく影響することを発見した。
以上の結果から,今後のベンチマークでは,下流の科学的問題,特に因果的な問題について慎重に検討すべきであることが示唆された。
論文 参考訳(メタデータ) (2024-05-27T13:26:34Z) - Are fairness metric scores enough to assess discrimination biases in
machine learning? [4.073786857780967]
我々は,Biosデータセットに焦点をあて,学習課題は,その伝記に基づいて個人の職業を予測することである。
我々は、グループワイドフェアネスメトリクスを扱う理論的議論の重要な制限に対処する。
そして、トレーニングセットのサイズが、合理的に正確な予測を学習するのに十分な場合、どの程度の信頼性が一般的なバイアスの尺度に異なるのかを問う。
論文 参考訳(メタデータ) (2023-06-08T15:56:57Z) - Empirical Design in Reinforcement Learning [23.873958977534993]
現在、数十のタスクに対して数百万のパラメータを持つエージェントのベンチマークが一般的であり、それぞれが30日間の経験に相当するものを使用している。
これらの実験の規模は、特にアルゴリズムの比較において、適切な統計的証拠の必要性と矛盾することが多い。
この写本は、行動への呼びかけと、強化学習において優れた実験を行うための包括的なリソースの両方を表現している。
論文 参考訳(メタデータ) (2023-04-03T19:32:24Z) - Systematic Evaluation of Predictive Fairness [60.0947291284978]
バイアス付きデータセットのトレーニングにおけるバイアスの緩和は、重要なオープンな問題である。
複数のタスクにまたがる様々なデバイアス化手法の性能について検討する。
データ条件が相対モデルの性能に強い影響を与えることがわかった。
論文 参考訳(メタデータ) (2022-10-17T05:40:13Z) - Small data problems in political research: a critical replication study [5.698280399449707]
このデータから, ランダムな列車-テスト分割のばらつきに対して, 分類モデルに非常に敏感な結果が得られた。
また、適用された前処理により、データが極めてスパースであることも示している。
以上の結果から,組織評価ツイートの自動分類に関するA&Wの結論は維持できないと論じる。
論文 参考訳(メタデータ) (2021-09-27T09:55:58Z) - Near-Optimal Reviewer Splitting in Two-Phase Paper Reviewing and
Conference Experiment Design [76.40919326501512]
総割り当ての類似性を最大化するために、レビュアーを段階または条件に分けるにはどうすればいいのか?
実会議データに関連する複数のデータセットに対して、ランダムに位相/条件を均一に分割することで、オラクルの最適割り当てとほぼ同等の割り当てが可能であることを実証的に示す。
論文 参考訳(メタデータ) (2021-08-13T19:29:41Z) - With Little Power Comes Great Responsibility [54.96675741328462]
アンダーパワー実験により、統計的ノイズと有意義なモデル改善の違いを識別することがより困難になる。
小さなテストセットは、ほとんどの試行錯誤が、最先端のモデルと比較しても、十分なパワーが得られないことを意味している。
機械翻訳では,2000文の典型的テストセットが約75%のパワーで1 BLEU点の差を検出する。
論文 参考訳(メタデータ) (2020-10-13T18:00:02Z) - Marginal likelihood computation for model selection and hypothesis
testing: an extensive review [66.37504201165159]
この記事では、このトピックの最先端に関する総合的な研究について紹介する。
さまざまなテクニックの制限、メリット、コネクション、差異を強調します。
また、不適切な事前利用の問題や解決法についても述べる。
論文 参考訳(メタデータ) (2020-05-17T18:31:58Z) - A Survey on Causal Inference [64.45536158710014]
因果推論は統計学、コンピュータ科学、教育、公共政策、経済学など、多くの分野において重要な研究トピックである。
観測データに対する様々な因果効果推定法が誕生した。
論文 参考訳(メタデータ) (2020-02-05T21:35:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。