論文の概要: Assisting the Grading of a Handwritten General Chemistry Exam with Artificial Intelligence
- arxiv url: http://arxiv.org/abs/2509.10591v1
- Date: Fri, 12 Sep 2025 13:08:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.687428
- Title: Assisting the Grading of a Handwritten General Chemistry Exam with Artificial Intelligence
- Title(参考訳): 人工知能を用いた手書き一般化学検査の研削支援
- Authors: Jan Cvengros, Gerd Kortemeyer,
- Abstract要約: 本稿では,AIを用いた手書き化学試験における評価システムの有効性と信頼性について検討する。
私たちはAIに割り当てられたスコアと、さまざまな種類の質問に対する人間の評価を比較します。
その結果,ルーチンアセスメントタスクにおけるAIの有望な応用が示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We explore the effectiveness and reliability of an artificial intelligence (AI)-based grading system for a handwritten general chemistry exam, comparing AI-assigned scores to human grading across various types of questions. Exam pages and grading rubrics were uploaded as images to account for chemical reaction equations, short and long open-ended answers, numerical and symbolic answer derivations, drawing, and sketching in pencil-and-paper format. Using linear regression analyses and psychometric evaluations, the investigation reveals high agreement between AI and human graders for textual and chemical reaction questions, while highlighting lower reliability for numerical and graphical tasks. The findings emphasize the necessity for human oversight to ensure grading accuracy, based on selective filtering. The results indicate promising applications for AI in routine assessment tasks, though careful consideration must be given to student perceptions of fairness and trust in integrating AI-based grading into educational practice.
- Abstract(参考訳): 本稿では,AIを用いた手書き化学試験における評価システムの有効性と信頼性について検討する。
化学反応方程式、短くて長いオープンな回答、数値的および記号的な回答の導出、図面、鉛筆と紙の書式によるスケッチを考慮に入れた画像として、エクストリームページとグレーディング・ルーリックがアップロードされた。
線形回帰分析と心理学的評価を用いて、この調査は、AIと人間のグレーダーの間で、テキストや化学反応に関する質問に対して高い一致を示し、数値やグラフィカルなタスクに対する信頼性の低下を強調している。
本研究は, 選択的フィルタリングに基づいて, 評価精度を確保するために, 人間の監視の必要性を強調した。
この結果から,AIを教育実践に取り入れる上で,学生の公正さや信頼感に配慮する必要があるが,日常的な評価課題におけるAIの有望な応用が示唆された。
関連論文リスト
- Evaluating LLM-Generated Q&A Test: a Student-Centered Study [0.06749750044497731]
我々は, GPT-4o-mini-based Q&A test for a Natural Language Processing course を自動生成し, 学生と専門家による心理測定, 知覚品質指標の評価を行った。
混合形式IRT分析では、生成したアイテムは強い差別と適切な難易度を示し、一方、学生と専門家のスター格付けは全体的な品質を反映している。
論文 参考訳(メタデータ) (2025-05-10T10:47:23Z) - General Scales Unlock AI Evaluation with Explanatory and Predictive Power [57.7995945974989]
ベンチマークはAIの進歩を導くものだが、汎用AIシステムには限られた説明力と予測力を提供している。
私たちは、一般的なAIベンチマークが実際に何を計測しているかを説明することができる、AI評価のための一般的な尺度を紹介します。
私たちの完全に自動化された方法論は、飽和しない一般的なスケールにインスタンス要求を配置する18の新しく作られたルーリックの上に構築されます。
論文 参考訳(メタデータ) (2025-03-09T01:13:56Z) - Validity Arguments For Constructed Response Scoring Using Generative Artificial Intelligence Applications [0.0]
ジェネレーティブAIは、従来のAIスコアリングにおける手作り機能に必要な労力を減らすため、特に魅力的である。
我々は,人間の評価,特徴に基づく自然言語処理AIスコアリングエンジン,生成AIを用いたスコアリングシステムに必要な妥当性証拠を比較した。
論文 参考訳(メタデータ) (2025-01-04T16:59:29Z) - Applying IRT to Distinguish Between Human and Generative AI Responses to Multiple-Choice Assessments [0.0]
評価に複数の選択質問が広く使用されているにもかかわらず、AI不正の検出はほとんど調査されていない。
本稿では,このギャップに対処するための項目応答理論の適用法を提案する。
我々のアプローチは、人工知能と人間の知性が異なる応答パターンを示すという仮定に基づいている。
論文 参考訳(メタデータ) (2024-11-28T09:43:06Z) - Evaluating GPT-4 at Grading Handwritten Solutions in Math Exams [48.99818550820575]
我々は、最先端のマルチモーダルAIモデル、特にGPT-4oを利用して、大学レベルの数学試験に対する手書きの応答を自動的に評価する。
確率論試験における質問に対する実際の学生の反応を用いて, GPT-4oのスコアと, 様々なプロンプト技術を用いて, 人間の学級のスコアとの整合性を評価する。
論文 参考訳(メタデータ) (2024-11-07T22:51:47Z) - Quality Assessment for AI Generated Images with Instruction Tuning [58.41087653543607]
我々はまず,AIGCIQA2023+と呼ばれるAIGIのための画像品質評価(IQA)データベースを構築した。
本稿では,AIGIに対する人間の嗜好を評価するためのMINT-IQAモデルを提案する。
論文 参考訳(メタデータ) (2024-05-12T17:45:11Z) - ChemMiner: A Large Language Model Agent System for Chemical Literature Data Mining [56.15126714863963]
ChemMinerは、文学から化学データを抽出するエンドツーエンドのフレームワークである。
ChemMinerには、コア参照マッピングのためのテキスト分析エージェント、非テキスト情報抽出のためのマルチモーダルエージェント、データ生成のための合成分析エージェントの3つの特殊エージェントが組み込まれている。
実験の結果,ヒト化学者に匹敵する反応同定率を示すとともに,高い精度,リコール,F1スコアで処理時間を著しく短縮した。
論文 参考訳(メタデータ) (2024-02-20T13:21:46Z) - Chemist-X: Large Language Model-empowered Agent for Reaction Condition Recommendation in Chemical Synthesis [55.30328162764292]
Chemist-Xは、化学合成における反応条件最適化(RCO)タスクを自動化する包括的なAIエージェントである。
このエージェントは、検索強化世代(RAG)技術とAI制御のウェットラブ実験を実行する。
我々の自動ウェットラブ実験の結果は、LLMが制御するエンドツーエンドの操作を、ロボットに人間がいない状態で行うことで達成され、Chemist-Xの自動運転実験における能力が証明された。
論文 参考訳(メタデータ) (2023-11-16T01:21:33Z) - MAILS -- Meta AI Literacy Scale: Development and Testing of an AI
Literacy Questionnaire Based on Well-Founded Competency Models and
Psychological Change- and Meta-Competencies [6.368014180870025]
アンケートはモジュラー(すなわち、互いに独立して使用できる異なるファセットを含む)であり、プロフェッショナルな生活に柔軟に適用できるべきである。
我々は、AIリテラシーの異なる側面を表すために、Ngと同僚がAIリテラシーを概念化した60項目を作成した。
AIに関する問題解決、学習、感情制御などの心理的能力を表す12項目が追加されている。
論文 参考訳(メタデータ) (2023-02-18T12:35:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。