論文の概要: Assessing Student Errors in Experimentation Using Artificial
Intelligence and Large Language Models: A Comparative Study with Human Raters
- arxiv url: http://arxiv.org/abs/2308.06088v1
- Date: Fri, 11 Aug 2023 12:03:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 14:17:19.655931
- Title: Assessing Student Errors in Experimentation Using Artificial
Intelligence and Large Language Models: A Comparative Study with Human Raters
- Title(参考訳): 人工知能と大規模言語モデルを用いた実験における学生の誤りの評価--レーティングとの比較研究
- Authors: Arne Bewersdorff, Kathrin Se{\ss}ler, Armin Baur, Enkelejda Kasneci,
Claudia Nerdel
- Abstract要約: 学生の誤りを自動的に識別するLarge Language Models (LLMs) の可能性を検討する。
GPT-3.5とGPT-4をベースとしたAIシステムを開発・試験した。
以上の結果から,AIシステムとレーダ間の誤差検出における精度の差が示唆された。
- 参考スコア(独自算出の注目度): 9.899633398596672
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Identifying logical errors in complex, incomplete or even contradictory and
overall heterogeneous data like students' experimentation protocols is
challenging. Recognizing the limitations of current evaluation methods, we
investigate the potential of Large Language Models (LLMs) for automatically
identifying student errors and streamlining teacher assessments. Our aim is to
provide a foundation for productive, personalized feedback. Using a dataset of
65 student protocols, an Artificial Intelligence (AI) system based on the
GPT-3.5 and GPT-4 series was developed and tested against human raters. Our
results indicate varying levels of accuracy in error detection between the AI
system and human raters. The AI system can accurately identify many fundamental
student errors, for instance, the AI system identifies when a student is
focusing the hypothesis not on the dependent variable but solely on an expected
observation (acc. = 0.90), when a student modifies the trials in an ongoing
investigation (acc. = 1), and whether a student is conducting valid test trials
(acc. = 0.82) reliably. The identification of other, usually more complex
errors, like whether a student conducts a valid control trial (acc. = .60),
poses a greater challenge. This research explores not only the utility of AI in
educational settings, but also contributes to the understanding of the
capabilities of LLMs in error detection in inquiry-based learning like
experimentation.
- Abstract(参考訳): 複雑な、不完全、あるいは矛盾する、学生の実験プロトコルのような全体的な異種データの論理的誤りを特定することは困難である。
現在の評価手法の限界を認識し,学生の誤りを自動的に識別し,教師の評価を合理化するためのLarge Language Models (LLMs) の可能性を検討する。
私たちの目標は、生産的でパーソナライズされたフィードバックの基盤を提供することです。
65の学生プロトコルのデータセットを用いて,GPT-3.5とGPT-4をベースとした人工知能(AI)システムを開発した。
以上の結果から,aiシステムとヒューマン・パーサー間の誤り検出の精度は様々であった。
例えば、AIシステムは、学生が依存変数ではなく、期待される観察(acc. = 0.90)のみに焦点を当てている場合、学生が進行中の調査(acc. = 1)の試行を変更している場合(acc. = 0.82)、学生が有効な試験試験を確実に行っているかどうかを正確に識別することができる。
学生が有効な制御試験(acc. = .60)を行うかどうかなど、他の、通常より複雑なエラーの特定は、大きな課題となる。
本研究は、学習環境におけるAIの有用性だけでなく、実験のような調査に基づく学習における誤り検出におけるLLMの能力の理解にも寄与する。
関連論文リスト
- Beyond human subjectivity and error: a novel AI grading system [67.410870290301]
オープンエンドの質問の格付けは、教育における高い努力と高いインパクトの課題である。
AI技術の最近のブレークスルーは、このような自動化を促進するかもしれないが、大規模に実証されていない。
本稿では,新しい自動短解階調システム(ASAG)を提案する。
論文 参考訳(メタデータ) (2024-05-07T13:49:59Z) - Determining the Difficulties of Students With Dyslexia via Virtual
Reality and Artificial Intelligence: An Exploratory Analysis [0.0]
VRAIlexiaプロジェクトは、この問題を解決するために、2つの異なるツールを提案している。
最初のものは、特定の心理学的・心理学的テストの実施のために、高等教育機関(Higher Education Institutions)のディプレックス学の学生の間で作成され、配布されている。
第2のツールは、アプリケーションやその他の調査を通じて収集されたデータに、特定の人工知能アルゴリズムを適用する。
論文 参考訳(メタデータ) (2024-01-15T20:26:09Z) - Student Mastery or AI Deception? Analyzing ChatGPT's Assessment
Proficiency and Evaluating Detection Strategies [1.633179643849375]
ChatGPTのような生成AIシステムは、学習と評価に破壊的な影響を及ぼす。
本研究では,ChatGPTを3つのコースに分けて評価することで,ChatGPTの性能を評価する。
論文 参考訳(メタデータ) (2023-11-27T20:10:13Z) - Adaptive Language-based Mental Health Assessment with Item-Response
Theory [7.801208784626191]
適応型言語に基づく評価(Adaptive Language-based Assessment)は,モデルが問うべき質問に対する限られた言語応答に基づいて,個人の心理的スコアを反復的に推定するタスクである。
適応テストは一般に高い妥当性を達成するのに必要な質問の数を大幅に削減できることがわかった。
どちらのモデルもランダムな順序付けや固定順序付けよりも大幅に改善されているが、ALIRTはより少ない質問数で最高の精度を達成できるスケーラブルなモデルである。
論文 参考訳(メタデータ) (2023-11-11T03:37:17Z) - Efficiently Measuring the Cognitive Ability of LLMs: An Adaptive Testing
Perspective [63.92197404447808]
大きな言語モデル(LLM)は、人間のような認知能力を示している。
LLM評価のための適応テストフレームワークを提案する。
このアプローチは、モデルの性能に基づいて、難易度などのテスト問題の特徴を動的に調整する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Neural Causal Models for Counterfactual Identification and Estimation [62.30444687707919]
本稿では,ニューラルモデルによる反事実文の評価について検討する。
まず、神経因果モデル(NCM)が十分に表現可能であることを示す。
第2に,反事実分布の同時同定と推定を行うアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-09-30T18:29:09Z) - Statistical and Computational Phase Transitions in Group Testing [73.55361918807883]
本研究の目的は、希少な疾患を患っているk人の集団を同定することである。
個々人のテストを割り当てるための2つの異なる単純なランダムな手順を考える。
論文 参考訳(メタデータ) (2022-06-15T16:38:50Z) - Cognitive Diagnosis with Explicit Student Vector Estimation and
Unsupervised Question Matrix Learning [53.79108239032941]
本研究では,DINA の学生ベクトルを推定するための明示的な学生ベクトル推定法を提案する。
また,Q行列を自動的にラベル付けする双方向キャリブレーションアルゴリズム (HBCA) を提案する。
2つの実世界のデータセットによる実験結果から,ESVE-DINAはDINAモデルよりも精度が高く,HBCAによって自動的にラベル付けされたQ行列は,手動でラベル付けしたQ行列に匹敵する性能が得られることが示された。
論文 参考訳(メタデータ) (2022-03-01T03:53:19Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - KANDINSKYPatterns -- An experimental exploration environment for Pattern
Analysis and Machine Intelligence [0.0]
我々は、ロシア人画家ワシリー・カンジンクシーに因んで命名されたカンディNSKYパタンスについて紹介する。
すべての知覚が 幾何学的に原始的な個々の要素から成り立っています
KandiNSKYPatternsは計算的に制御可能な特性を持つため、人間の観察者、すなわち制御されたパターンは人間とアルゴリズムの両方で容易に区別できる。
論文 参考訳(メタデータ) (2021-02-28T14:09:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。