論文の概要: Assessing Student Errors in Experimentation Using Artificial
Intelligence and Large Language Models: A Comparative Study with Human Raters
- arxiv url: http://arxiv.org/abs/2308.06088v1
- Date: Fri, 11 Aug 2023 12:03:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 14:17:19.655931
- Title: Assessing Student Errors in Experimentation Using Artificial
Intelligence and Large Language Models: A Comparative Study with Human Raters
- Title(参考訳): 人工知能と大規模言語モデルを用いた実験における学生の誤りの評価--レーティングとの比較研究
- Authors: Arne Bewersdorff, Kathrin Se{\ss}ler, Armin Baur, Enkelejda Kasneci,
Claudia Nerdel
- Abstract要約: 学生の誤りを自動的に識別するLarge Language Models (LLMs) の可能性を検討する。
GPT-3.5とGPT-4をベースとしたAIシステムを開発・試験した。
以上の結果から,AIシステムとレーダ間の誤差検出における精度の差が示唆された。
- 参考スコア(独自算出の注目度): 9.899633398596672
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Identifying logical errors in complex, incomplete or even contradictory and
overall heterogeneous data like students' experimentation protocols is
challenging. Recognizing the limitations of current evaluation methods, we
investigate the potential of Large Language Models (LLMs) for automatically
identifying student errors and streamlining teacher assessments. Our aim is to
provide a foundation for productive, personalized feedback. Using a dataset of
65 student protocols, an Artificial Intelligence (AI) system based on the
GPT-3.5 and GPT-4 series was developed and tested against human raters. Our
results indicate varying levels of accuracy in error detection between the AI
system and human raters. The AI system can accurately identify many fundamental
student errors, for instance, the AI system identifies when a student is
focusing the hypothesis not on the dependent variable but solely on an expected
observation (acc. = 0.90), when a student modifies the trials in an ongoing
investigation (acc. = 1), and whether a student is conducting valid test trials
(acc. = 0.82) reliably. The identification of other, usually more complex
errors, like whether a student conducts a valid control trial (acc. = .60),
poses a greater challenge. This research explores not only the utility of AI in
educational settings, but also contributes to the understanding of the
capabilities of LLMs in error detection in inquiry-based learning like
experimentation.
- Abstract(参考訳): 複雑な、不完全、あるいは矛盾する、学生の実験プロトコルのような全体的な異種データの論理的誤りを特定することは困難である。
現在の評価手法の限界を認識し,学生の誤りを自動的に識別し,教師の評価を合理化するためのLarge Language Models (LLMs) の可能性を検討する。
私たちの目標は、生産的でパーソナライズされたフィードバックの基盤を提供することです。
65の学生プロトコルのデータセットを用いて,GPT-3.5とGPT-4をベースとした人工知能(AI)システムを開発した。
以上の結果から,aiシステムとヒューマン・パーサー間の誤り検出の精度は様々であった。
例えば、AIシステムは、学生が依存変数ではなく、期待される観察(acc. = 0.90)のみに焦点を当てている場合、学生が進行中の調査(acc. = 1)の試行を変更している場合(acc. = 0.82)、学生が有効な試験試験を確実に行っているかどうかを正確に識別することができる。
学生が有効な制御試験(acc. = .60)を行うかどうかなど、他の、通常より複雑なエラーの特定は、大きな課題となる。
本研究は、学習環境におけるAIの有用性だけでなく、実験のような調査に基づく学習における誤り検出におけるLLMの能力の理解にも寄与する。
関連論文リスト
- LLM-based Cognitive Models of Students with Misconceptions [55.29525439159345]
本稿では,この2つの要件を満たすためにLLM(Large Language Models)を命令調整できるかどうかを検討する。
真正な学生ソリューションパターンを反映したデータセットを生成する新しいPythonライブラリであるMalAlgoPyを紹介する。
我々の洞察は、AIに基づく学生モデルの理解を高め、効果的な適応学習システムへの道を開く。
論文 参考訳(メタデータ) (2024-10-16T06:51:09Z) - Stepwise Verification and Remediation of Student Reasoning Errors with Large Language Model Tutors [78.53699244846285]
大規模言語モデル(LLM)は、高品質なパーソナライズされた教育を全員に拡大する機会を提供する。
LLMは、学生のエラーを正確に検知し、これらのエラーに対するフィードバックを調整するのに苦労する。
教師が学生の誤りを識別し、それに基づいて回答をカスタマイズする現実世界の教育実践に触発され、我々は学生ソリューションの検証に焦点をあてる。
論文 参考訳(メタデータ) (2024-07-12T10:11:40Z) - Beyond human subjectivity and error: a novel AI grading system [67.410870290301]
オープンエンドの質問の格付けは、教育における高い努力と高いインパクトの課題である。
AI技術の最近のブレークスルーは、このような自動化を促進するかもしれないが、大規模に実証されていない。
本稿では,新しい自動短解階調システム(ASAG)を提案する。
論文 参考訳(メタデータ) (2024-05-07T13:49:59Z) - Determining the Difficulties of Students With Dyslexia via Virtual
Reality and Artificial Intelligence: An Exploratory Analysis [0.0]
VRAIlexiaプロジェクトは、この問題を解決するために、2つの異なるツールを提案している。
最初のものは、特定の心理学的・心理学的テストの実施のために、高等教育機関(Higher Education Institutions)のディプレックス学の学生の間で作成され、配布されている。
第2のツールは、アプリケーションやその他の調査を通じて収集されたデータに、特定の人工知能アルゴリズムを適用する。
論文 参考訳(メタデータ) (2024-01-15T20:26:09Z) - Student Mastery or AI Deception? Analyzing ChatGPT's Assessment
Proficiency and Evaluating Detection Strategies [1.633179643849375]
ChatGPTのような生成AIシステムは、学習と評価に破壊的な影響を及ぼす。
本研究では,ChatGPTを3つのコースに分けて評価することで,ChatGPTの性能を評価する。
論文 参考訳(メタデータ) (2023-11-27T20:10:13Z) - Neural Causal Models for Counterfactual Identification and Estimation [62.30444687707919]
本稿では,ニューラルモデルによる反事実文の評価について検討する。
まず、神経因果モデル(NCM)が十分に表現可能であることを示す。
第2に,反事実分布の同時同定と推定を行うアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-09-30T18:29:09Z) - Cognitive Diagnosis with Explicit Student Vector Estimation and
Unsupervised Question Matrix Learning [53.79108239032941]
本研究では,DINA の学生ベクトルを推定するための明示的な学生ベクトル推定法を提案する。
また,Q行列を自動的にラベル付けする双方向キャリブレーションアルゴリズム (HBCA) を提案する。
2つの実世界のデータセットによる実験結果から,ESVE-DINAはDINAモデルよりも精度が高く,HBCAによって自動的にラベル付けされたQ行列は,手動でラベル付けしたQ行列に匹敵する性能が得られることが示された。
論文 参考訳(メタデータ) (2022-03-01T03:53:19Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - KANDINSKYPatterns -- An experimental exploration environment for Pattern
Analysis and Machine Intelligence [0.0]
我々は、ロシア人画家ワシリー・カンジンクシーに因んで命名されたカンディNSKYパタンスについて紹介する。
すべての知覚が 幾何学的に原始的な個々の要素から成り立っています
KandiNSKYPatternsは計算的に制御可能な特性を持つため、人間の観察者、すなわち制御されたパターンは人間とアルゴリズムの両方で容易に区別できる。
論文 参考訳(メタデータ) (2021-02-28T14:09:59Z) - Challenging common interpretability assumptions in feature attribution
explanations [0.0]
大規模な人・物体実験により,3つの共通解釈可能性仮定の妥当性を実証的に評価した。
特徴帰属の説明は、人間の意思決定者にとって、我々のタスクに限界効用をもたらす。
論文 参考訳(メタデータ) (2020-12-04T17:57:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。