論文の概要: An Evaluation of the Pedagogical Soundness and Usability of AI-Generated Lesson Plans Across Different Models and Prompt Frameworks in High-School Physics
- arxiv url: http://arxiv.org/abs/2510.19866v1
- Date: Wed, 22 Oct 2025 02:53:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:16.422696
- Title: An Evaluation of the Pedagogical Soundness and Usability of AI-Generated Lesson Plans Across Different Models and Prompt Frameworks in High-School Physics
- Title(参考訳): 高校物理学におけるAIによる授業計画の教育的健全性と使用性の評価
- Authors: Xincheng Liu,
- Abstract要約: 本研究では,5大言語モデルを対象としたAIによる授業計画の教育的健全性とユーザビリティについて検討した。
高校の物理学のトピックである電磁スペクトルに関する15のレッスンプランが作成された。
- 参考スコア(独自算出の注目度): 0.7310043452300737
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study evaluates the pedagogical soundness and usability of AI-generated lesson plans across five leading large language models: ChatGPT (GPT-5), Claude Sonnet 4.5, Gemini 2.5 Flash, DeepSeek V3.2, and Grok 4. Beyond model choice, three structured prompt frameworks were tested: TAG (Task, Audience, Goal), RACE (Role, Audience, Context, Execution), and COSTAR (Context, Objective, Style, Tone, Audience, Response Format). Fifteen lesson plans were generated for a single high-school physics topic, The Electromagnetic Spectrum. The lesson plans were analyzed through four automated computational metrics: (1) readability and linguistic complexity, (2) factual accuracy and hallucination detection, (3) standards and curriculum alignment, and (4) cognitive demand of learning objectives. Results indicate that model selection exerted the strongest influence on linguistic accessibility, with DeepSeek producing the most readable teaching plan (FKGL = 8.64) and Claude generating the densest language (FKGL = 19.89). The prompt framework structure most strongly affected the factual accuracy and pedagogical completeness, with the RACE framework yielding the lowest hallucination index and the highest incidental alignment with NGSS curriculum standards. Across all models, the learning objectives in the fifteen lesson plans clustered at the Remember and Understand tiers of Bloom's taxonomy. There were limited higher-order verbs in the learning objectives extracted. Overall, the findings suggest that readability is significantly governed by model design, while instructional reliability and curricular alignment depend more on the prompt framework. The most effective configuration for lesson plans identified in the results was to combine a readability-optimized model with the RACE framework and an explicit checklist of physics concepts, curriculum standards, and higher-order objectives.
- Abstract(参考訳): 本研究では、ChatGPT(GPT-5)、Claude Sonnet 4.5、Gemini 2.5 Flash、DeepSeek V3.2、Grok 4の5つの主要言語モデルを対象に、AI生成学習プランの教育的健全性とユーザビリティを評価した。
モデル選択以外にも、TAG(Task, Audience, Goal)、RAS(Role, Audience, Context, Execution)、COSTAR(Context, Objective, Style, Tone, Audience, Response Format)という3つの構造化プロンプトフレームワークがテストされた。
高校の物理学のトピックである電磁スペクトルに関する15のレッスンプランが作成された。
授業計画は,(1)読みやすさと言語的複雑さ,(2)事実の精度と幻覚の検出,(3)標準とカリキュラムの整合性,(4)学習目標の認知的要求の4つの自動計算指標を用いて分析した。
その結果,モデル選択は言語アクセシビリティに最も強い影響を与え,DeepSeekは最も読みやすい教育計画(FKGL = 8.64)を,Claudeは最も密度の高い言語(FKGL = 19.89)を作成した。
RACEフレームワークは最も幻覚指数が低く、NGSSの基準に付随するアライメントが最も高い。
あらゆるモデルにおいて、ブルームの分類学のリマイン・アンド・アンダースタンド・ティアに集合した15の授業計画の学習目標が達成された。
学習目的の抽出には高次動詞が限られていた。
全体としては、可読性はモデル設計によって著しく制御されるが、命令的信頼性とカリキュラム的アライメントはプロンプトフレームワークに依存している。
結果で特定された授業計画の最も効果的な構成は、可読性に最適化されたモデルと、RSEフレームワークと、物理学の概念、カリキュラム標準、高次目的の明確なチェックリストを組み合わせることである。
関連論文リスト
- Benchmarking Large Language Models for Personalized Guidance in AI-Enhanced Learning [4.990353320509215]
大規模言語モデル(LLM)は、パーソナライズされた学習のためのインテリジェントアシスタントとしてますます考えられている。
本研究では,現実的な学習環境を模擬した学習課題における3つの最先端LLMの実証的比較を行った。
論文 参考訳(メタデータ) (2025-09-02T14:21:59Z) - TASE: Token Awareness and Structured Evaluation for Multilingual Language Models [8.058965963418785]
TASEは、大規模言語モデルのトークンレベルの情報に対する認識と推論能力を評価するために設計されたベンチマークである。
TASEは、トークン認識と構造理解、中国語、英語、韓国語にまたがる10のタスクを2つの中核カテゴリでカバーしている。
我々は、O3、Claude 4、Gemini 2.5 Pro、DeepSeek-R1を含む30以上の主要な商用およびオープンソースLLMを評価した。
論文 参考訳(メタデータ) (2025-08-07T15:11:17Z) - Roadmap towards Superhuman Speech Understanding using Large Language Models [60.57947401837938]
大規模言語モデル(LLM)は、音声データと音声データを統合したものである。
GPT-4oのような最近の進歩は、エンドツーエンドのLLMの可能性を強調している。
本稿では,基本自動音声認識(ASR)から高度な超人モデルまで,5段階のロードマップを提案する。
論文 参考訳(メタデータ) (2024-10-17T06:44:06Z) - Integrating Self-supervised Speech Model with Pseudo Word-level Targets
from Visually-grounded Speech Model [57.78191634042409]
擬似単語レベルのターゲットを学習プロセスに統合するフレームワークであるPseudo-Word HuBERT(PW-HuBERT)を提案する。
4つの音声言語理解(SLU)ベンチマークによる実験結果から,意味情報の収集におけるモデルの有用性が示唆された。
論文 参考訳(メタデータ) (2024-02-08T16:55:21Z) - Investigating the Efficacy of Large Language Models in Reflective
Assessment Methods through Chain of Thoughts Prompting [0.2552922646705803]
複雑な推論タスクにおけるLLMの習熟度を高める手段として、Chain of Thought(CoT)プロンプト法が提案されている。
本研究の主な目的は、4つの言語モデルが3年制医学生の振り返りエッセイをいかに評価できるかを評価することである。
論文 参考訳(メタデータ) (2023-09-30T06:25:27Z) - Flesch or Fumble? Evaluating Readability Standard Alignment of
Instruction-Tuned Language Models [4.867923281108005]
各種のオープンソース・クローズド・ソース・インストラクション・チューニング言語モデルを選択し、ストーリー・コンプリートの作成や物語の簡略化におけるそれらの性能について検討する。
以上の結果から,ChatGPTのような世界規模で認識されているモデルがより効果的であり,これらの生成タスクに対してより洗練されたプロンプトを必要とする可能性が示唆された。
論文 参考訳(メタデータ) (2023-09-11T13:50:38Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Physics of Language Models: Part 1, Learning Hierarchical Language Structures [51.68385617116854]
トランスフォーマーベースの言語モデルは効率的だが複雑であり、内部の動作や推論メカニズムを理解することは大きな課題である。
本稿では,長文を生成可能な階層規則を生成する合成CFGのファミリーを紹介する。
我々は、GPTのような生成モデルがCFG定義階層を正確に学習し、推論し、それに基づいて文を生成することを実証する。
論文 参考訳(メタデータ) (2023-05-23T04:28:16Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。