論文の概要: Decoding Instructional Dialogue: Human-AI Collaborative Analysis of Teacher Use of AI Tool at Scale
- arxiv url: http://arxiv.org/abs/2507.17985v2
- Date: Mon, 28 Jul 2025 22:35:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 12:52:36.822994
- Title: Decoding Instructional Dialogue: Human-AI Collaborative Analysis of Teacher Use of AI Tool at Scale
- Title(参考訳): インストラクショナル対話のデコード:大規模AIツールの教師利用に関する人間-AI協調分析
- Authors: Alex Liu, Lief Esbenshade, Shawon Sarkar, Victor Tian, Zachary Zhang, Kevin He, Min Sun,
- Abstract要約: 大規模言語モデルの教育ツールへの統合は、教師の指導計画に大きな影響を与える可能性がある。
本稿では,140,000以上の教育者-AIメッセージの大規模定性分析のための人間-AI協調手法を提案する。
- 参考スコア(独自算出の注目度): 9.092920230987684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The integration of large language models (LLMs) into educational tools has the potential to substantially impact how teachers plan instruction, support diverse learners, and engage in professional reflection. Yet little is known about how educators actually use these tools in practice and how their interactions with AI can be meaningfully studied at scale. This paper presents a human-AI collaborative methodology for large-scale qualitative analysis of over 140,000 educator-AI messages drawn from a generative AI platform used by K-12 teachers. Through a four-phase coding pipeline, we combined inductive theme discovery, codebook development, structured annotation, and model benchmarking to examine patterns of educator engagement and evaluate the performance of LLMs in qualitative coding tasks. We developed a hierarchical codebook aligned with established teacher evaluation frameworks, capturing educators' instructional goals, contextual needs, and pedagogical strategies. Our findings demonstrate that LLMs, particularly Claude 3.5 Haiku, can reliably support theme identification, extend human recognition in complex scenarios, and outperform open-weight models in both accuracy and structural reliability. The analysis also reveals substantive patterns in how educators inquire AI to enhance instructional practices (79.7 percent of total conversations), create or adapt content (76.1 percent), support assessment and feedback loop (46.9 percent), attend to student needs for tailored instruction (43.3 percent), and assist other professional responsibilities (34.2 percent), highlighting emerging AI-related competencies that have direct implications for teacher preparation and professional development. This study offers a scalable, transparent model for AI-augmented qualitative research and provides foundational insights into the evolving role of generative AI in educational practice.
- Abstract(参考訳): 大規模言語モデル(LLM)の教育ツールへの統合は、教師が指導をどのように計画するか、多様な学習者をサポートし、専門家の振り返りに大きく影響する可能性がある。
しかし、これらのツールを実際にどのように使っているのか、どのようにAIとのインタラクションを大規模に研究できるかについては、ほとんど分かっていない。
本稿では,K-12教師が使用する生成型AIプラットフォームから抽出した140,000以上の教育者-AIメッセージの大規模定性分析のための人間-AI協調手法を提案する。
4段階のコーディングパイプラインを通じて、帰納的テーマ発見、コードブック開発、構造化アノテーション、モデルベンチマークを組み合わせることで、教育者のエンゲージメントのパターンを調べ、定性的なコーディングタスクにおけるLLMの性能を評価する。
そこで我々は,教師評価フレームワークと整合した階層型コードブックを開発し,教育者の指導目標,文脈的ニーズ,教育戦略を抽出した。
以上の結果から, LLM, 特にClaude 3.5 Haikuは, テーマ識別を確実にサポートし, 複雑なシナリオにおける人間の認識を拡張し, 精度と構造的信頼性の両方においてオープンウェイトモデルより優れていることが示唆された。
この分析はまた、教育者がAIを使って教育実践を強化する方法(全会話の79.7%)、コンテンツの作成または適応(76.1%)、サポートアセスメントとフィードバックのループ(46.9%)、生徒の調整された教育ニーズへの参加(43.3%)、その他の専門的責任(34.2%)、そして教師の準備と専門的開発に直接的な影響を与えるAI関連能力の出現について、実質的なパターンを明らかにしている。
この研究は、AIの拡張された質的研究のためのスケーラブルで透明なモデルを提供し、教育実践における生成AIの役割の進化に関する基礎的な洞察を提供する。
関連論文リスト
- Benchmarking the Pedagogical Knowledge of Large Language Models [4.417539128489408]
本稿では,その教育的知識に基づいて,大規模言語モデルを評価するための新しいデータセットであるThe Pedagogy Benchmarkを紹介する。
これらのベンチマークは、教師のための専門的開発試験から得られた、慎重にキュレートされた質問に基づいて構築されている。
本報告では, 教育的知識に関する質問に対して, 精度が28%から89%の範囲で, 97モデルの結果を報告する。
論文 参考訳(メタデータ) (2025-06-23T14:49:01Z) - EducationQ: Evaluating LLMs' Teaching Capabilities Through Multi-Agent Dialogue Framework [9.76455227840645]
大規模言語モデル(LLM)は、ますます教育ツールとして機能するが、その教育能力を評価することは困難である。
本研究では,動的シナリオをシミュレートして学習能力を効果的に評価するマルチエージェント対話フレームワークであるEducationQを紹介する。
論文 参考訳(メタデータ) (2025-04-21T07:48:20Z) - LLM Agents for Education: Advances and Applications [49.3663528354802]
大規模言語モデル(LLM)エージェントは、タスクの自動化と多様な教育アプリケーションにおけるイノベーションの推進において、顕著な能力を示した。
本調査は、LLMエージェントの総合的技術概要を提供することを目的としており、学習者や教育者のより大きな利益に対する影響を高めるために、さらなる研究と協力を促進することを目的としている。
論文 参考訳(メタデータ) (2025-03-14T11:53:44Z) - MathTutorBench: A Benchmark for Measuring Open-ended Pedagogical Capabilities of LLM Tutors [76.1634959528817]
我々は、総合的なチューリングモデル評価のためのオープンソースのベンチマークであるMathTutorBenchを紹介する。
MathTutorBenchには、ダイアログベースの教育における科学の研究によって定義された、家庭教師の能力をカバーするデータセットとメトリクスが含まれている。
閉鎖的およびオープンウェイトなモデルの幅広いセットを評価し、問題解決能力によって示される課題の専門知識が、すぐには良い教育に変換されないことを発見した。
論文 参考訳(メタデータ) (2025-02-26T08:43:47Z) - Enhancing Instructional Quality: Leveraging Computer-Assisted Textual
Analysis to Generate In-Depth Insights from Educational Artifacts [13.617709093240231]
本研究では、人工知能(AI)と機械学習(ML)が教育内容、教師の談話、学生の反応を分析して教育改善を促進する方法について検討する。
私たちは、教師のコーチング、学生のサポート、コンテンツ開発など、AI/ML統合が大きな利点をもたらす重要な領域を特定します。
本稿では,AI/ML技術と教育的目標との整合性の重要性を強調し,その教育的可能性を実現する。
論文 参考訳(メタデータ) (2024-03-06T18:29:18Z) - Evaluating and Optimizing Educational Content with Large Language Model Judgments [52.33701672559594]
言語モデル(LM)を教育専門家として活用し,学習結果に対する様々な指導の影響を評価する。
本稿では,一方のLMが他方のLMの判断を報酬関数として利用して命令材料を生成する命令最適化手法を提案する。
ヒトの教師によるこれらのLM生成ワークシートの評価は、LM判定と人間の教師の嗜好との間に有意な整合性を示す。
論文 参考訳(メタデータ) (2024-03-05T09:09:15Z) - Opportunities and Challenges in Neural Dialog Tutoring [54.07241332881601]
言語学習のための2つの対話学習データセットを用いて、様々な生成言語モデルを厳密に分析する。
現在のアプローチでは、制約のある学習シナリオでチューリングをモデル化できますが、制約の少ないシナリオではパフォーマンスが悪くなります。
人的品質評価では, モデルと接地木アノテーションの両方が, 同等のチュータリングの点で低い性能を示した。
論文 参考訳(メタデータ) (2023-01-24T11:00:17Z) - Modelling Assessment Rubrics through Bayesian Networks: a Pragmatic Approach [40.06500618820166]
本稿では,学習者モデルを直接評価ルーリックから導出する手法を提案する。
本稿では,コンピュータ思考のスキルをテストするために開発された活動の人的評価を自動化するために,この手法を適用する方法について述べる。
論文 参考訳(メタデータ) (2022-09-07T10:09:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。