論文の概要: Challenges for AI in Multimodal STEM Assessments: a Human-AI Comparison
- arxiv url: http://arxiv.org/abs/2507.03013v1
- Date: Wed, 02 Jul 2025 12:06:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.528357
- Title: Challenges for AI in Multimodal STEM Assessments: a Human-AI Comparison
- Title(参考訳): マルチモーダルSTEM評価におけるAIの課題:人間とAIの比較
- Authors: Aymeric de Chillaz, Anna Sotnikova, Patrick Jermann, Antoine Bosselut,
- Abstract要約: 生成AIシステムは急速に進歩し、テキストベースのタスク以外の推論を可能にするマルチモーダル入力機能を備えている。
教育においては、これらの進歩は評価設計と質問応答に影響を与え、機会と課題の両方を提示する。
本研究は,これらの特徴が学生に比較して,生成的AI性能にどのように影響するかを分析する。
- 参考スコア(独自算出の注目度): 15.814479753448412
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generative AI systems have rapidly advanced, with multimodal input capabilities enabling reasoning beyond text-based tasks. In education, these advancements could influence assessment design and question answering, presenting both opportunities and challenges. To investigate these effects, we introduce a high-quality dataset of 201 university-level STEM questions, manually annotated with features such as image type, role, problem complexity, and question format. Our study analyzes how these features affect generative AI performance compared to students. We evaluate four model families with five prompting strategies, comparing results to the average of 546 student responses per question. Although the best model correctly answers on average 58.5 % of the questions using majority vote aggregation, human participants consistently outperform AI on questions involving visual components. Interestingly, human performance remains stable across question features but varies by subject, whereas AI performance is susceptible to both subject matter and question features. Finally, we provide actionable insights for educators, demonstrating how question design can enhance academic integrity by leveraging features that challenge current AI systems without increasing the cognitive burden for students.
- Abstract(参考訳): 生成AIシステムは急速に進歩し、テキストベースのタスク以外の推論を可能にするマルチモーダル入力機能を備えている。
教育においては、これらの進歩は評価設計と質問応答に影響を与え、機会と課題の両方を提示する。
これらの効果を調べるために、画像タイプ、役割、問題複雑さ、質問形式などの特徴を手動でアノテートした201の大学レベルのSTEM質問の高品質データセットを導入する。
本研究は,これらの特徴が学生に比較して,生成的AI性能にどのように影響するかを分析する。
4つのモデルファミリーを5つのプロンプト戦略で評価し,各質問に対する平均546人の回答と比較した。
最も優れたモデルは、多数決の集計を使って平均58.5%の質問に正しく答えるが、人間の参加者は視覚的コンポーネントに関連する質問でAIより一貫して優れている。
興味深いことに、人間のパフォーマンスは質問機能全体にわたって安定しているが、被験者によって異なる。
最後に,学生の認知的負担を増大させることなく,現在のAIシステムに挑戦する機能を活用することで,質問設計が学術的整合性を高める方法を示す。
関連論文リスト
- The AI Imperative: Scaling High-Quality Peer Review in Machine Learning [49.87236114682497]
AIによるピアレビューは、緊急の研究とインフラの優先事項になるべきだ、と私たちは主張する。
我々は、事実検証の強化、レビュアーのパフォーマンスの指導、品質改善における著者の支援、意思決定におけるAC支援におけるAIの具体的な役割を提案する。
論文 参考訳(メタデータ) (2025-06-09T18:37:14Z) - When Models Know More Than They Can Explain: Quantifying Knowledge Transfer in Human-AI Collaboration [79.69935257008467]
我々は,人間とAIの知識伝達能力に関する概念的かつ実験的フレームワークである知識統合と伝達評価(KITE)を紹介する。
最初の大規模人間実験(N=118)を行い,その測定を行った。
2段階のセットアップでは、まずAIを使って問題解決戦略を思いつき、その後独立してソリューションを実装し、モデル説明が人間の理解に与える影響を分離します。
論文 参考訳(メタデータ) (2025-06-05T20:48:16Z) - The Imitation Game for Educational AI [23.71250100390303]
本稿では,2相チューリング様試験に基づく新しい評価フレームワークを提案する。
フェーズ1では、学生は質問に対するオープンな回答を提供し、自然な誤解を明らかにします。
フェーズ2では、AIと人間の専門家の両方が、各学生の特定のミスを条件に、新しい関連する質問に気を散らす。
論文 参考訳(メタデータ) (2025-02-21T01:14:55Z) - How Performance Pressure Influences AI-Assisted Decision Making [57.53469908423318]
我々は、プレッシャーと説明可能なAI(XAI)技術がAIアドバイステイク行動とどのように相互作用するかを示す。
我々の結果は、圧力とXAIの異なる組み合わせで複雑な相互作用効果を示し、AIアドバイスの行動を改善するか、悪化させるかのどちらかを示す。
論文 参考訳(メタデータ) (2024-10-21T22:39:52Z) - Do great minds think alike? Investigating Human-AI Complementarity in Question Answering with CAIMIRA [43.116608441891096]
人間は知識に基づく帰納的、概念的推論においてAIシステムより優れています。
GPT-4やLLaMAのような最先端のLLMは、ターゲット情報検索において優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-09T03:53:26Z) - Automated Educational Question Generation at Different Bloom's Skill Levels using Large Language Models: Strategies and Evaluation [0.0]
我々は,5つの最先端の大規模言語モデルを用いて,認知レベルの多様で高品質な質問を生成する能力について検討した。
以上の結果から,LLmsは適切な情報によって認知レベルが異なる関連性のある,高品質な教育的質問を生じさせる可能性が示唆された。
論文 参考訳(メタデータ) (2024-08-08T11:56:57Z) - Could ChatGPT get an Engineering Degree? Evaluating Higher Education Vulnerability to AI Assistants [176.39275404745098]
我々は,2つのAIアシスタントであるGPT-3.5とGPT-4が適切な回答を得られるかどうかを評価する。
GPT-4は65.8%の質問を正解し、85.1%の質問に対して少なくとも1つの手順で正しい答えを出すことができる。
この結果から,AIの進歩を踏まえて,高等教育におけるプログラムレベルの評価設計の見直しが求められた。
論文 参考訳(メタデータ) (2024-08-07T12:11:49Z) - OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI [73.75520820608232]
我々は,11,163のバイリンガル問題を含む,テキストのみとインターリーブされたテキストイメージのモダリティを紹介する。
これらの課題には、7つのフィールドと62の国際オリンピック大会にわたる幅広い規律が含まれており、データ漏洩について厳格に調査されている。
我々の評価によると、GPT-4oのような先進モデルでさえ、複雑な推論とマルチモーダル統合における現在のAI制限を反映して、全体的な精度は39.97%しか達成していない。
論文 参考訳(メタデータ) (2024-06-18T16:20:53Z) - Can AI Serve as a Substitute for Human Subjects in Software Engineering
Research? [24.39463126056733]
本稿では,人工知能(AI)の能力を活用したソフトウェア工学研究における定性データ収集手法を提案する。
定性的データの代替源としてAI生成合成テキストの可能性を探る。
観察研究とユーザ評価における人間の行動のエミュレートを目的とした新しい基礎モデルの開発について論じる。
論文 参考訳(メタデータ) (2023-11-18T14:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。