論文の概要: SketchMind: A Multi-Agent Cognitive Framework for Assessing Student-Drawn Scientific Sketches
- arxiv url: http://arxiv.org/abs/2507.22904v1
- Date: Sun, 29 Jun 2025 11:35:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-03 20:19:02.922826
- Title: SketchMind: A Multi-Agent Cognitive Framework for Assessing Student-Drawn Scientific Sketches
- Title(参考訳): SketchMind - 学生が生み出す科学的スケッチを評価するためのマルチエージェント認知フレームワーク
- Authors: Ehsan Latif, Zirak Khan, Xiaoming Zhai,
- Abstract要約: SketchMindは、学生が描いた科学スケッチを評価し改善するためのマルチエージェントフレームワークである。
解析、スケッチ認識、認知アライメント、スケッチ修正による反復的なフィードバックを担当するモジュールエージェントで構成されている。
専門家らは、ガイド付きリビジョンを通じて概念的成長を有意義に支援するシステムの可能性に言及した。
- 参考スコア(独自算出の注目度): 1.1172147007388977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scientific sketches (e.g., models) offer a powerful lens into students' conceptual understanding, yet AI-powered automated assessment of such free-form, visually diverse artifacts remains a critical challenge. Existing solutions often treat sketch evaluation as either an image classification task or monolithic vision-language models, which lack interpretability, pedagogical alignment, and adaptability across cognitive levels. To address these limitations, we present SketchMind, a cognitively grounded, multi-agent framework for evaluating and improving student-drawn scientific sketches. SketchMind comprises modular agents responsible for rubric parsing, sketch perception, cognitive alignment, and iterative feedback with sketch modification, enabling personalized and transparent evaluation. We evaluate SketchMind on a curated dataset of 3,575 student-generated sketches across six science assessment items with different highest order of Bloom's level that require students to draw models to explain phenomena. Compared to baseline GPT-4o performance without SRG (average accuracy: 55.6%), and with SRG integration achieves 77.1% average accuracy (+21.4% average absolute gain). We also demonstrate that multi-agent orchestration with SRG enhances SketchMind performance, for example, GPT-4.1 gains an average 8.9% increase in sketch prediction accuracy, outperforming single-agent pipelines across all items. Human evaluators rated the feedback and co-created sketches generated by \textsc{SketchMind} with GPT-4.1, which achieved an average of 4.1 out of 5, significantly higher than those of baseline models (e.g., 2.3 for GPT-4o). Experts noted the system's potential to meaningfully support conceptual growth through guided revision. Our code and (pending approval) dataset will be released to support reproducibility and future research in AI-driven education.
- Abstract(参考訳): 科学的なスケッチ(例:モデル)は、学生の概念的理解に強力なレンズを提供するが、そのような自由で視覚的に多様な人工物のAIによる自動評価は、依然として重要な課題である。
既存のソリューションはしばしば、画像分類タスクまたはモノリシックな視覚言語モデルとしてスケッチ評価を扱い、解釈可能性、教育的アライメント、認知レベル間の適応性が欠如している。
これらの制約に対処するために、学生が描いた科学的スケッチを評価し改善するための認知的基盤を持つマルチエージェントフレームワークであるSketchMindを提案する。
SketchMindは、ルーブリック解析、スケッチ認識、認知アライメント、スケッチ修正による反復的なフィードバックを担当するモジュールエージェントで構成され、パーソナライズされ透明な評価を可能にする。
SketchMindは6つの科学評価項目から3,575人の学生が作成したスケッチを収集したデータセットで評価した。
SRGなしのベースラインGPT-4oのパフォーマンス(平均精度:55.6%)とSRG統合では平均精度が77.1%(平均絶対利得:+21.4%)となる。
また、SRGを用いたマルチエージェントオーケストレーションによりSketchMindのパフォーマンスが向上することを示す。例えば、GPT-4.1では、スケッチ予測精度が平均8.9%向上し、すべての項目でシングルエージェントパイプラインのパフォーマンスが向上する。
GPT-4.1は、ベースラインモデル(例えば、GPT-4oでは2.3)よりも平均4.1に達した。
専門家らは、ガイド付きリビジョンを通じて概念的成長を有意義に支援するシステムの可能性に言及した。
私たちのコードと(承認を控える)データセットは、AI駆動教育における再現性と将来の研究をサポートするためにリリースされます。
関連論文リスト
- Annotation-Free Human Sketch Quality Assessment [56.71509868378274]
この記事では、品質評価を初めて研究します。
重要な発見は、スケッチ機能の大きさ(Lメトリックと$ノルム)を量的品質指標として活用することにある。
このような品質評価機能が,初めて3つの実用的なスケッチアプリケーションを実現する方法を示す。
論文 参考訳(メタデータ) (2025-07-28T06:18:51Z) - Interpretable Few-Shot Image Classification via Prototypical Concept-Guided Mixture of LoRA Experts [79.18608192761512]
自己説明可能なモデル(SEM)は、視覚認識プロセスをより解釈可能なものにするために、プロトタイプ概念学習(PCL)に依存している。
パラメトリック不均衡と表現の不整合という2つの重要な課題を緩和するFew-Shotプロトタイプ概念分類フレームワークを提案する。
我々のアプローチは、既存のSEMを顕著な差で常に上回っており、5-way 5-shot分類では4.2%-8.7%の相対的な利得がある。
論文 参考訳(メタデータ) (2025-06-05T06:39:43Z) - A Unified Agentic Framework for Evaluating Conditional Image Generation [66.25099219134441]
コンディショナル画像生成は、コンテンツのパーソナライズ能力において大きな注目を集めている。
本稿では,条件付き画像生成タスクを包括的に評価するための統合エージェントフレームワークCIGEvalを紹介する。
論文 参考訳(メタデータ) (2025-04-09T17:04:14Z) - Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing [84.16442052968615]
RISEBenchはReasoning-Informed ViSual Editing (RISE)の最初のベンチマークである。
RISEBenchは、時間、因果、空間、論理的推論の4つの主要な推論カテゴリに焦点を当てている。
オープンソースモデルとプロプライエタリモデルの両方を含む,9つの目立った視覚編集モデルを評価する実験を行った。
論文 参考訳(メタデータ) (2025-04-03T17:59:56Z) - From Correctness to Comprehension: AI Agents for Personalized Error Diagnosis in Education [24.970741456147447]
大規模言語モデル(LLM)は、GSM8Kのようなベンチマークでほぼ完璧なパフォーマンスを達成し、驚くべき数学的推論能力を示している。
しかし、誤り診断やフィードバック生成よりも正確さが過大評価されているため、パーソナライズされた教育への応用は依然として限られている。
textbfMathCCSは,システム的エラー解析と修正されたフィードバックのためのベンチマークである。
第2に、過去のデータを利用してトレンドを追跡し、診断精度を向上させるシーケンシャルなエラー解析フレームワークを開発する。
第3に、歴史的分析のための時系列エージェントと実時間のためのMLLMエージェントを組み合わせたマルチエージェント協調フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-19T14:57:51Z) - SketchRef: a Multi-Task Evaluation Benchmark for Sketch Synthesis [6.832790933688975]
SketchRefは、スケッチ合成のための最初の総合的なマルチタスク評価ベンチマークである。
タスクは、動物、共通物、人体、顔の4つの領域にまたがる5つのサブタスクに分けられる。
アート愛好家から7,920の回答を収集することで,我々のアプローチを検証する。
論文 参考訳(メタデータ) (2024-08-16T09:32:26Z) - Estimating Human Poses Across Datasets: A Unified Skeleton and Multi-Teacher Distillation Approach [12.042768320132694]
本稿では,多教師による知識蒸留と骨格の統一的表現を融合した新しい手法を提案する。
私たちのネットワークは、それぞれ17と16のキーポイントを含むCOCOとMPIIデータセットで共同でトレーニングされています。
我々のジョイントモデルの平均精度は70.89と76.40で、1つのデータセットでトレーニングし、両方で評価すると53.79と55.78だった。
論文 参考訳(メタデータ) (2024-05-30T14:14:39Z) - Overcoming Pitfalls in Graph Contrastive Learning Evaluation: Toward
Comprehensive Benchmarks [60.82579717007963]
本稿では,グラフコントラスト学習(GCL)手法の有効性,一貫性,全体的な能力をより正確に評価するために,拡張された評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-24T01:47:56Z) - Gemini Pro Defeated by GPT-4V: Evidence from Education [1.0226894006814744]
GPT-4Vは、スコアリング精度と四重み付きカッパの点でゲミニプロを著しく上回っている。
GPT-4Vは複雑な教育課題に対処する能力に優れていた。
論文 参考訳(メタデータ) (2023-12-27T02:56:41Z) - NERIF: GPT-4V for Automatic Scoring of Drawn Models [0.6278186810520364]
最近リリースされたGPT-4Vは、科学的モデリングの実践を前進させるユニークな機会を提供する。
我々は,GPT-4Vに学生の描画モデルを評価するための指導音とルーブリックを用いた手法を開発した。
GPT-4Vのスコアを人間の専門家のスコアと比較し、スコアの精度を計算した。
論文 参考訳(メタデータ) (2023-11-21T20:52:04Z) - Q-Instruct: Improving Low-level Visual Abilities for Multi-modality
Foundation Models [81.20804369985376]
我々は,低レベルの視覚に対する多数の人間のフィードバックを収集する大規模主観的実験を行う。
構築された**Q-Pathway**データセットには、18,973イメージに関する58万の詳細な人間のフィードバックが含まれている。
我々は、GPT参加型変換を設計し、これらのフィードバックを多種多様な200K命令応答対に処理する。
論文 参考訳(メタデータ) (2023-11-12T09:10:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。