論文の概要: In-class Data Analysis Replications: Teaching Students while Testing Science
- arxiv url: http://arxiv.org/abs/2308.16491v2
- Date: Tue, 30 Jul 2024 22:09:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 20:47:15.665678
- Title: In-class Data Analysis Replications: Teaching Students while Testing Science
- Title(参考訳): 授業におけるデータ分析の意義 : 理科の授業を通して
- Authors: Kristina Gligoric, Tiziano Piccardi, Jake Hofman, Robert West,
- Abstract要約: 本研究では,EPFLで教えられた応用データ分析コースのプロジェクトコンポーネントにデータ解析の複製を組み込んだ。
学生がデータ分析の複製を期待していることと、彼らが経験したこととの間には相違点がある。
我々は,学術コミュニティにおけるクラス内データ分析レプリケーションの有意義なメリットを同定する。
- 参考スコア(独自算出の注目度): 16.951059542542843
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Science is facing a reproducibility crisis. Previous work has proposed incorporating data analysis replications into classrooms as a potential solution. However, despite the potential benefits, it is unclear whether this approach is feasible, and if so, what the involved stakeholders-students, educators, and scientists-should expect from it. Can students perform a data analysis replication over the course of a class? What are the costs and benefits for educators? And how can this solution help benchmark and improve the state of science? In the present study, we incorporated data analysis replications in the project component of the Applied Data Analysis course (CS-401) taught at EPFL (N=354 students). Here we report pre-registered findings based on surveys administered throughout the course. First, we demonstrate that students can replicate previously published scientific papers, most of them qualitatively and some exactly. We find discrepancies between what students expect of data analysis replications and what they experience by doing them along with changes in expectations about reproducibility, which together serve as evidence of attitude shifts to foster students' critical thinking. Second, we provide information for educators about how much overhead is needed to incorporate replications into the classroom and identify concerns that replications bring as compared to more traditional assignments. Third, we identify tangible benefits of the in-class data analysis replications for scientific communities, such as a collection of replication reports and insights about replication barriers in scientific work that should be avoided going forward. Overall, we demonstrate that incorporating replication tasks into a large data science class can increase the reproducibility of scientific work as a by-product of data science instruction, thus benefiting both science and students.
- Abstract(参考訳): 科学は再現可能性の危機に直面している。
従来の研究では、潜在的な解決策としてデータ分析のレプリケーションを教室に組み込むことが提案されている。
しかし、潜在的な利点にもかかわらず、このアプローチが実現可能かどうかは不明であり、もしそうであったとしても、利害関係者や教育者、科学者が何を期待するかは明らかではない。
生徒は授業中にデータ分析のレプリケーションを実行できますか?
教育者にとってのコストとメリットは何でしょう?
そして、このソリューションは科学の状態のベンチマークと改善にどのように役立つのか?
本研究では,EPFL(N=354人)で教えられた応用データ分析コース(CS-401)のプロジェクトコンポーネントにデータ解析の複製を組み込んだ。
本報告では, コース全体を通して実施した調査に基づいて, 事前登録した調査結果について報告する。
まず、学生が以前公表した科学論文を再現できることを実証する。
再現性に対する期待の変化とともに、学生がデータ分析の複製を期待していることと、学生の批判的思考を育むための態度転換の証拠として、学生が経験したこととの間には相違がある。
第二に、教室にレプリケーションを組み込むにはどの程度のオーバーヘッドが必要か教育者に対して情報を提供し、従来の課題と比較してレプリケーションがもたらす懸念を特定する。
第3に, 科学的研究における複製レポートの収集や複製障壁に関する洞察など, 科学コミュニティにおけるデータ分析レプリケーションの目覚ましいメリットを明らかにし, 今後は避けるべきである。
全体として、大規模なデータサイエンスクラスに複製タスクを組み込むことで、データサイエンス指導の副産物としての科学的作業の再現性が向上し、科学と学生の両方に利益をもたらすことを実証する。
関連論文リスト
- Hypothesizing Missing Causal Variables with LLMs [55.28678224020973]
我々は、入力が欠落変数を持つ部分因果グラフであるような新しいタスクを定式化し、出力は部分グラフを完成させるための欠落変数に関する仮説である。
原因と効果の間の媒介変数を仮説化するLLMの強い能力を示す。
また,オープンソースモデルの一部がGPT-4モデルより優れているという驚くべき結果も得られた。
論文 参考訳(メタデータ) (2024-09-04T10:37:44Z) - Smoke and Mirrors in Causal Downstream Tasks [59.90654397037007]
本稿では, 治療効果推定の因果推論タスクについて検討し, 高次元観察において利害関係が記録されている。
最先端の視覚バックボーンから微調整した6つの480モデルを比較し、サンプリングとモデリングの選択が因果推定の精度に大きく影響することを発見した。
以上の結果から,今後のベンチマークでは,下流の科学的問題,特に因果的な問題について慎重に検討すべきであることが示唆された。
論文 参考訳(メタデータ) (2024-05-27T13:26:34Z) - Groundedness in Retrieval-augmented Long-form Generation: An Empirical Study [61.74571814707054]
検索した文書やモデルの事前学習データに生成されたすべての文が接地されているかどうかを評価する。
3つのデータセットと4つのモデルファミリーにまたがって、生成した文のかなりの部分が一貫してアングラウンド化されていることが明らかとなった。
以上の結果から,より大きなモデルではアウトプットをより効果的に基礎づける傾向にあるものの,正解のかなりの部分が幻覚によって損なわれていることが示唆された。
論文 参考訳(メタデータ) (2024-04-10T14:50:10Z) - Reproducibility and Geometric Intrinsic Dimensionality: An Investigation on Graph Neural Network Research [0.0]
これらの努力に基づいて構築することは、マシンラーニングにおけるもうひとつの重要な課題、すなわち次元の呪いに向かっています。
本研究は,機械学習モデルが学習対象のデータセットの拡張次元にどのような影響を受けているのかを,本質的な次元の密接な関連概念を用いて検討する。
論文 参考訳(メタデータ) (2024-03-13T11:44:30Z) - Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - Repetition In Repetition Out: Towards Understanding Neural Text
Degeneration from the Data Perspective [91.14291142262262]
この研究は、データの観点から、単純で基本的な説明を提示する。
予備調査では, 退化問題とトレーニングデータにおける反復の有無との間には強い相関関係がみられた。
実験の結果,訓練データにおける繰り返しのペナルティ化は,より大きなモデルサイズや命令のチューニングを考慮しても重要な課題であることがわかった。
論文 参考訳(メタデータ) (2023-10-16T09:35:42Z) - Large Language Models for Automated Open-domain Scientific Hypotheses Discovery [50.40483334131271]
本研究は,社会科学の学術的仮説発見のための最初のデータセットを提案する。
従来のデータセットとは異なり、新しいデータセットには、(1)オープンドメインデータ(RAW Webコーパス)を観察として使用すること、(2)人間性にさらに新しい仮説を提案することが必要である。
パフォーマンス向上のための3つのフィードバック機構を含む,タスクのためのマルチモジュールフレームワークが開発されている。
論文 参考訳(メタデータ) (2023-09-06T05:19:41Z) - The worst of both worlds: A comparative analysis of errors in learning
from data in psychology and machine learning [17.336655978572583]
機械学習(ML)が誤診や複製の危機に直面しているという最近の懸念は、ML研究で公表された主張の一部が対面価値で評価できないことを示唆している。
教師付きMLにおける研究の関心事は、実験科学における複製危機と共通している。
論文 参考訳(メタデータ) (2022-03-12T18:26:24Z) - Opinionated practices for teaching reproducibility: motivation, guided
instruction and practice [0.0]
予測モデリングは、しばしばデータサイエンスの初心者にとって最も興味深いトピックの1つである。
学生は本質的にこのトピックを学ぶ動機がなく、学ぶのは容易ではない。
余分なモチベーション、指導、多くのプラクティスを提供することが、このトピックを効果的に教える鍵となります。
論文 参考訳(メタデータ) (2021-09-17T19:15:41Z) - An Analytical Theory of Curriculum Learning in Teacher-Student Networks [10.303947049948107]
人間や動物では、カリキュラム学習は迅速な学習と効果的な教育に不可欠である。
機械学習では、キュリキュラは広く使われておらず、経験的には適度な利益しか得られない。
論文 参考訳(メタデータ) (2021-06-15T11:48:52Z) - Dataset Bias in the Natural Sciences: A Case Study in Chemical Reaction
Prediction and Synthesis Design [0.8594140167290099]
化学反応予測と合成設計の分野における方向変化を必要とする3つのトレンドを同定する。
まず、反応データセットを反応物質と試薬に分解する方法は、非現実的な寛大な方法でテストモデルを奨励する。
第2に,誤記データの発生状況に注目し,データ適合性ではなく,異常除去に重点を置くべきであることを示唆する。
論文 参考訳(メタデータ) (2021-05-06T13:11:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。