論文の概要: SID: Benchmarking Guided Instruction Capabilities in STEM Education with a Socratic Interdisciplinary Dialogues Dataset
- arxiv url: http://arxiv.org/abs/2508.04563v1
- Date: Wed, 06 Aug 2025 15:49:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.796694
- Title: SID: Benchmarking Guided Instruction Capabilities in STEM Education with a Socratic Interdisciplinary Dialogues Dataset
- Title(参考訳): SID: ソクラティックな学際的対話データセットを用いたSTEM教育におけるベンチマーク指導機能
- Authors: Mei Jiang, Houping Yue, Bingdong Li, Hao Hao, Ying Qian, Bo Jiang, Aimin Zhou,
- Abstract要約: LLMの高次誘導能力を評価するために設計された最初のベンチマークであるSIDを紹介する。
私たちのコントリビューションには、48の複雑なSTEMプロジェクトにわたる10,000の対話ターンの大規模なデータセットが含まれています。
ベースライン実験は、最先端のLLMでさえ効果的なガイド付き対話を実行するのに苦労していることを確認した。
- 参考スコア(独自算出の注目度): 7.233293220739224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fostering students' abilities for knowledge integration and transfer in complex problem-solving scenarios is a core objective of modern education, and interdisciplinary STEM is a key pathway to achieve this, yet it requires expert guidance that is difficult to scale. While LLMs offer potential in this regard, their true capability for guided instruction remains unclear due to the lack of an effective evaluation benchmark. To address this, we introduce SID, the first benchmark designed to systematically evaluate the higher-order guidance capabilities of LLMs in multi-turn, interdisciplinary Socratic dialogues. Our contributions include a large-scale dataset of 10,000 dialogue turns across 48 complex STEM projects, a novel annotation schema for capturing deep pedagogical features, and a new suite of evaluation metrics (e.g., X-SRG). Baseline experiments confirm that even state-of-the-art LLMs struggle to execute effective guided dialogues that lead students to achieve knowledge integration and transfer. This highlights the critical value of our benchmark in driving the development of more pedagogically-aware LLMs.
- Abstract(参考訳): 複雑な問題解決シナリオにおける知識統合と伝達の学生の能力の育成は、現代教育の中核的な目的であり、学際的STEMは、これを達成するための重要な経路であるが、スケールが難しい専門家の指導が必要である。
LLMは、この点において潜在的に有益であるが、効果的な評価ベンチマークが欠如しているため、誘導命令の真の能力は未だ不明である。
そこで本研究では,複数の学際的ソクラテス対話におけるLLMの高次誘導能力を体系的に評価する最初のベンチマークであるSIDを紹介する。
コントリビューションには、48の複雑なSTEMプロジェクトにわたる10,000の対話の大規模なデータセット、深い教育的特徴をキャプチャするための新しいアノテーションスキーマ、新しい評価指標(例えば、X-SRG)が含まれています。
ベースライン実験は、最先端のLLMでさえ、学生が知識の統合と伝達を達成するための効果的なガイド付き対話を実行するのに苦労していることを確認した。
これは、より教育的なLLMの開発を促進する上で、我々のベンチマークの重要価値を強調します。
関連論文リスト
- A Theory of Adaptive Scaffolding for LLM-Based Pedagogical Agents [3.6084561124905297]
大規模言語モデル(LLM)は、学生の学習を支援するために意味のある対話を行う教育エージェントを作成する新しい機会を提供する。
本研究では,STEM+C学習に着目したLLMエージェントの適応的足場構築のための,エビデンス中心設計と社会認知理論を組み合わせたフレームワークを提案する。
この結果から,Inquizzitorは中核的な学習理論に沿った高品質な評価とインタラクションを提供し,教師が学生に価値をもたらす効果的な指導を提供することがわかった。
論文 参考訳(メタデータ) (2025-08-02T21:58:32Z) - ELMES: An Automated Framework for Evaluating Large Language Models in Educational Scenarios [23.549720214649476]
大規模言語モデル(LLM)は、多くの新しいアプリケーションシナリオを生成する、教育の変革的な機会を提供する。
現在のベンチマークは、教育能力よりも一般知能を主に測定している。
本研究では,オープンソースの自動評価フレームワークであるEMMESを紹介した。
論文 参考訳(メタデータ) (2025-07-27T15:20:19Z) - Inverse Reinforcement Learning Meets Large Language Model Post-Training: Basics, Advances, and Opportunities [62.05713042908654]
本稿では,逆強化学習(IRL)のレンズによる大規模言語モデル(LLM)のアライメントの進歩について概観する。
我々は、人間のデータからニューラル報酬モデルを構築する必要性を強調し、このパラダイムシフトの形式的および実践的意味について議論する。
論文 参考訳(メタデータ) (2025-07-17T14:22:24Z) - Towards Robust Evaluation of STEM Education: Leveraging MLLMs in Project-Based Learning [19.4760649326684]
プロジェクトベースラーニング(PBL)は、様々な高度に相関したマルチモーダルデータを含んでおり、STEM分野において重要な教育的アプローチとなっている。
MLLM(Multimodal large language model)の急速な発展に伴い、研究者は情報検索、知識理解、データ生成といったタスクを強化する可能性を探り始めた。
既存のベンチマークは、自由形式の出力構造と厳格な人間の専門家による検証プロセスの両方を提供することで不足しており、実際の教育タスクを評価する上での有効性を制限している。
論文 参考訳(メタデータ) (2025-05-16T11:01:01Z) - Enhanced Bloom's Educational Taxonomy for Fostering Information Literacy in the Era of Large Language Models [16.31527042425208]
本稿では,大規模言語モデル(LLM)を用いた学生の情報リテラシー(IL)の認識と評価を目的としたLLMによるブルーム教育分類法を提案する。
このフレームワークは、LLMを使用するために必要な認知能力に対応するILを、Exploration & ActionとCreation & Metacognitionの2つの異なるステージに分類する。
論文 参考訳(メタデータ) (2025-03-25T08:23:49Z) - SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines [118.8024915014751]
大規模言語モデル(LLM)は、数学、物理学、計算機科学などの学問分野において顕著な熟練性を示している。
しかしながら、人間の知識は200以上の専門分野を含み、既存のベンチマークの範囲をはるかに超えている。
285分野にわたる大学院レベルの知識と推論能力を評価するベンチマークであるSuperGPQAを提案する。
論文 参考訳(メタデータ) (2025-02-20T17:05:58Z) - A Novel Psychometrics-Based Approach to Developing Professional Competency Benchmark for Large Language Models [0.0]
本稿では,厳密な心理測定原理に基づくベンチマーク開発への包括的アプローチを提案する。
我々は、教育と教育の分野で新しいベンチマークを作成することで、このアプローチを説明する最初の試みを行う。
我々はブルームの分類学によってガイドされ、テスト開発で訓練された教育専門家のコンソーシアムによって厳格に設計された新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-10-29T19:32:43Z) - Exploring Knowledge Tracing in Tutor-Student Dialogues using LLMs [49.18567856499736]
本研究では,大規模言語モデル(LLM)が対話学習を支援することができるかどうかを検討する。
我々は,学習者の知識レベルを対話全体にわたって追跡するために,ラベル付きデータに知識追跡(KT)手法を適用した。
我々は,2つの学習対話データセットの実験を行い,従来のKT手法よりも学生の反応の正しさを予測できる新しいLCM-based method LLMKTが優れていることを示す。
論文 参考訳(メタデータ) (2024-09-24T22:31:39Z) - Knowledge Tagging System on Math Questions via LLMs with Flexible Demonstration Retriever [48.5585921817745]
大きな言語モデル(LLM)は知識タグ付けタスクを自動化するために使われる。
算数問題における知識タグ付けタスクに対するゼロショットと少数ショットの結果の強い性能を示す。
強化学習に基づくデモレトリバーの提案により,異なるサイズのLLMの潜在能力を活用できた。
論文 参考訳(メタデータ) (2024-06-19T23:30:01Z) - DIALIGHT: Lightweight Multilingual Development and Evaluation of
Task-Oriented Dialogue Systems with Large Language Models [76.79929883963275]
DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。
ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。
評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
論文 参考訳(メタデータ) (2024-01-04T11:27:48Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Continual Learning in Task-Oriented Dialogue Systems [49.35627673523519]
タスク指向対話システムにおける継続的な学習は、システム全体のリトレーニングのコストを伴わずに、時間を通じて新しいドメインや機能を追加できる。
37ドメインのタスク指向対話システムを4つの設定で継続的に学習するための継続的学習ベンチマークを提案する。
論文 参考訳(メタデータ) (2020-12-31T08:44:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。