論文の概要: Developing a Multi-Agent System to Generate Next Generation Science Assessments with Evidence-Centered Design
- arxiv url: http://arxiv.org/abs/2602.18451v1
- Date: Tue, 03 Feb 2026 04:37:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 07:21:25.571259
- Title: Developing a Multi-Agent System to Generate Next Generation Science Assessments with Evidence-Centered Design
- Title(参考訳): エビデンス中心設計による次世代科学評価生成のためのマルチエージェントシステムの開発
- Authors: Yaxuan Yang, Jongchan Park, Yifan Zhou, Xiaoming Zhai,
- Abstract要約: 次世代科学標準 (NGSS) は、学生が科学知識を使って問題解決や設計ソリューションを構築する能力を理解するために評価を要求する。
このような高次能力を引き出すには、教育者は、開発が困難なパフォーマンスベースの評価が必要である。
Evidence-Centered Design (ECD) は学習者、エビデンス、タスクの相互接続モデルを強調している。
- 参考スコア(独自算出の注目度): 9.558651359587358
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contemporary science education reforms such as the Next Generation Science Standards (NGSS) demand assessments to understand students' ability to use science knowledge to solve problems and design solutions. To elicit such higher-order ability, educators need performance-based assessments, which are challenging to develop. One solution that has been broadly adopted is Evidence-Centered Design (ECD), which emphasizes interconnected models of the learner, evidence, and tasks. Although ECD provides a framework to safeguard assessment validity, its implementation requires diverse expertise (e.g., content and assessment), which is both costly and labor-intensive. To address this challenge, this study proposed integrating the ECD framework into Multi-Agent Systems (MAS) to generate NGSS-aligned assessment items automatically. This integrated MAS system ensembles multiple large language models with varying expertise, enabling the automation of complex, multi-stage item generation workflows traditionally performed by human experts. We examined the quality of AI-generated NGSS-aligned items and compared them with human-developed items across multiple dimensions of assessment design. Results showed that AI-generated items have overall comparable quality to human-developed items in terms of alignment with NGSS three-dimensional standards and cognitive demands. Divergent patterns also emerged: AI-generated items demonstrated a distinct strength in inclusivity, while also exhibiting limitations in clarity, conciseness, and multimodal design. AI- and human-developed items both showed weaknesses in evidence collectability and student interest alignment. These findings suggest that integrating ECD into MAS can support scalable and standards-aligned assessment design, while human expertise remains essential.
- Abstract(参考訳): 次世代科学標準(NGSS)のような現代科学教育改革は、学生が科学知識を使って問題解決や設計のソリューションを構築する能力を理解するために評価を要求する。
このような高次能力を引き出すには、教育者は、開発が困難なパフォーマンスベースの評価が必要である。
Evidence-Centered Design (ECD) は学習者、エビデンス、タスクの相互接続モデルを強調している。
ECDは評価の妥当性を守るための枠組みを提供するが、その実装には様々な専門知識(コンテンツや評価など)が必要である。
そこで本研究では,EMDフレームワークをマルチエージェントシステム(MAS)に統合し,NGSS対応のアセスメント項目を自動的に生成する手法を提案する。
この統合MASシステムは、様々な専門知識を持つ複数の大規模言語モデルをアンサンブルし、伝統的に人間の専門家によって実行される複雑で多段階のアイテム生成ワークフローの自動化を可能にする。
我々は,AI生成したNGSS対応アイテムの品質について検討し,評価設計の多次元にわたる人間開発アイテムと比較した。
その結果、AI生成項目は、NGSSの3次元標準と認知的要求との整合性の観点から、人間の開発した項目と総じて同等の品質を有することがわかった。
AI生成したアイテムは、傾きの異なる強みを示しながら、明確さ、簡潔さ、マルチモーダルデザインの限界を示した。
AIと人間が開発した項目はどちらも証拠収集性と学生の関心調整の弱点を示していた。
これらの結果から,EMDをMASに組み込むことで,スケーラブルで標準に整合したアセスメント設計が実現できることが示唆された。
関連論文リスト
- Cognitively Diverse Multiple-Choice Question Generation: A Hybrid Multi-Agent Framework with Large Language Models [4.155649113742267]
ReQUESTAは認知学的に多様な多目的質問(MCQ)を生成するためのハイブリッドマルチエージェントフレームワークである
本研究では,学術論文を用いた大規模読解学習における枠組みの評価を行った。
その結果、ReQUESTA生成項目は、より困難であり、差別的であり、全体的な読解能力と強く一致していることがわかった。
論文 参考訳(メタデータ) (2026-02-03T16:26:47Z) - EduAgentQG: A Multi-Agent Workflow Framework for Personalized Question Generation [56.43882334582494]
高品質で多様なパーソナライズされた質問を生成するための多エージェント協調フレームワークであるEduAgentQGを提案する。
フレームワークは5つの特殊エージェントで構成され、反復的なフィードバックループを介して動作する。
EduAgentQGは、質問の多様性、ゴールの一貫性、全体的な品質の点で、既存のシングルエージェントとマルチエージェントの手法より優れている。
論文 参考訳(メタデータ) (2025-11-08T12:25:31Z) - The AI Imperative: Scaling High-Quality Peer Review in Machine Learning [49.87236114682497]
AIによるピアレビューは、緊急の研究とインフラの優先事項になるべきだ、と私たちは主張する。
我々は、事実検証の強化、レビュアーのパフォーマンスの指導、品質改善における著者の支援、意思決定におけるAC支援におけるAIの具体的な役割を提案する。
論文 参考訳(メタデータ) (2025-06-09T18:37:14Z) - Rethinking Machine Unlearning in Image Generation Models [59.697750585491264]
CatIGMUは、新しい階層的なタスク分類フレームワークである。
EvalIGMUは包括的な評価フレームワークである。
高品質な未学習データセットであるDataIGMを構築した。
論文 参考訳(メタデータ) (2025-06-03T11:25:14Z) - Creativity in LLM-based Multi-Agent Systems: A Survey [56.25583236738877]
大規模言語モデル(LLM)によるマルチエージェントシステム(MAS)は、人間とAIが協調してアイデアやアーティファクトを生成する方法を変えつつある。
これはMASにおける創造性に関する最初の調査である。
本研究では,(1)エージェントの能動性やペルソナ設計の分類,(2)分岐探索,反復改良,協調合成などの生成技術の概要,(3)不整合評価基準,不整合性バイアス緩和,協調競合,統一ベンチマークの欠如といった重要な課題について論じる。
論文 参考訳(メタデータ) (2025-05-27T12:36:14Z) - On the Evaluation of Engineering Artificial General Intelligence [5.802869598386355]
本稿では,工学的汎用人工知能(eAGI)エージェントを評価するための枠組みを提案する。
我々はeAGIを人工知能(AGI)の専門化と考えている。
eAGIエージェントは、事実とメソッドの背景知識(リコールと検索)のユニークなブレンドを持つべきである。
論文 参考訳(メタデータ) (2025-05-15T18:52:47Z) - Evaluating Machine Expertise: How Graduate Students Develop Frameworks for Assessing GenAI Content [1.967444231154626]
本稿では,大学院生が大規模言語モデル(LLM)を用いたWebベースインタラクションにおいて,機械生成の専門知識を評価するためのフレームワークを開発する方法について検討する。
その結果, 学生は, 職業的アイデンティティ, 検証能力, システムナビゲーション経験の3つの要因により, 評価フレームワークを構築していることがわかった。
論文 参考訳(メタデータ) (2025-04-24T22:24:14Z) - Advancing Education through Tutoring Systems: A Systematic Literature Review [3.276010440333338]
本研究は,知能学習システム (ITS) とロボット学習システム (RTS) を包含した学習システムの変革的役割を体系的にレビューする。
この発見は、適応性、エンゲージメント、学習結果を向上するAI技術の著しい進歩を示している。
この研究は、ITSとRTSの相補的な強みを強調し、教育効果を最大化するために統合されたハイブリッドソリューションを提案する。
論文 参考訳(メタデータ) (2025-03-12T18:47:07Z) - Data Analysis in the Era of Generative AI [56.44807642944589]
本稿では,AIを活用したデータ分析ツールの可能性について考察する。
我々は、大規模言語とマルチモーダルモデルの出現が、データ分析ワークフローの様々な段階を強化する新しい機会を提供する方法について検討する。
次に、直感的なインタラクションを促進し、ユーザ信頼を構築し、AI支援分析ワークフローを複数のアプリにわたって合理化するための、人間中心の設計原則を調べます。
論文 参考訳(メタデータ) (2024-09-27T06:31:03Z) - AtomAgents: Alloy design and discovery through physics-aware multi-modal multi-agent artificial intelligence [0.0]
提案されている物理対応生成AIプラットフォームAtomAgentsは、大規模言語モデル(LLM)のインテリジェンスをシナジする
以上の結果から, 合金間におけるキー特性の正確な予測が可能となり, 先進金属合金の開発を推し進めるためには, 固溶合金が重要な役割を担っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-13T22:46:02Z) - OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI [73.75520820608232]
我々は,11,163のバイリンガル問題を含む,テキストのみとインターリーブされたテキストイメージのモダリティを紹介する。
これらの課題には、7つのフィールドと62の国際オリンピック大会にわたる幅広い規律が含まれており、データ漏洩について厳格に調査されている。
我々の評価によると、GPT-4oのような先進モデルでさえ、複雑な推論とマルチモーダル統合における現在のAI制限を反映して、全体的な精度は39.97%しか達成していない。
論文 参考訳(メタデータ) (2024-06-18T16:20:53Z) - Integration of cognitive tasks into artificial general intelligence test
for large models [54.72053150920186]
我々は、認知科学にインスパイアされた人工知能(AGI)テストの包括的な枠組みを提唱する。
認知科学に触発されたAGIテストは、結晶化インテリジェンス、流体インテリジェンス、社会インテリジェンス、エンボディドインテリジェンスを含む、すべてのインテリジェンスファセットを含んでいる。
論文 参考訳(メタデータ) (2024-02-04T15:50:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。