論文の概要: The Promises and Pitfalls of Using Language Models to Measure Instruction Quality in Education
- arxiv url: http://arxiv.org/abs/2404.02444v1
- Date: Wed, 3 Apr 2024 04:15:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 18:39:40.474034
- Title: The Promises and Pitfalls of Using Language Models to Measure Instruction Quality in Education
- Title(参考訳): 教育における授業品質測定における言語モデルの利用の約束と落とし穴
- Authors: Paiheng Xu, Jing Liu, Nathan Jones, Julie Cohen, Wei Ai,
- Abstract要約: 本稿では,自然言語処理(NLP)技術を活用して,複数のハイ推論教育実践を評価するための最初の研究について述べる。
ノイズや長い入力データ、人間の評価の高度に歪んだ分布など、NLPに基づく指導分析に固有の2つの課題に直面している。
- 参考スコア(独自算出の注目度): 3.967610895056427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Assessing instruction quality is a fundamental component of any improvement efforts in the education system. However, traditional manual assessments are expensive, subjective, and heavily dependent on observers' expertise and idiosyncratic factors, preventing teachers from getting timely and frequent feedback. Different from prior research that mostly focuses on low-inference instructional practices on a singular basis, this paper presents the first study that leverages Natural Language Processing (NLP) techniques to assess multiple high-inference instructional practices in two distinct educational settings: in-person K-12 classrooms and simulated performance tasks for pre-service teachers. This is also the first study that applies NLP to measure a teaching practice that is widely acknowledged to be particularly effective for students with special needs. We confront two challenges inherent in NLP-based instructional analysis, including noisy and long input data and highly skewed distributions of human ratings. Our results suggest that pretrained Language Models (PLMs) demonstrate performances comparable to the agreement level of human raters for variables that are more discrete and require lower inference, but their efficacy diminishes with more complex teaching practices. Interestingly, using only teachers' utterances as input yields strong results for student-centered variables, alleviating common concerns over the difficulty of collecting and transcribing high-quality student speech data in in-person teaching settings. Our findings highlight both the potential and the limitations of current NLP techniques in the education domain, opening avenues for further exploration.
- Abstract(参考訳): 授業の質を評価することは、教育システムにおける改善努力の基本的な要素である。
しかし、従来の手動評価は高価で主観的で、観察者の専門知識や慣用的要因に大きく依存しているため、教師の時間的・頻繁なフィードバックを妨げている。
本研究は,主に単体で低推論の授業実践に焦点を当てた先行研究と異なり,NLP(Natural Language Processing, 自然言語処理)技術を用いて,複数の高推論の指導実践を2つの異なる教育環境において評価する最初の研究である。
また、NLPを応用して、特別なニーズを持つ学生に特に効果的であると広く認められている教育実践を測定する最初の研究である。
ノイズや長い入力データ、人間の評価の高度に歪んだ分布など、NLPに基づく指導分析に固有の2つの課題に直面している。
予備学習型言語モデル (PLM) は, より離散的で推論が低い変数に対して, より複雑な教育実践によってその効果が低下し, 人間のレーダの合意レベルに匹敵する性能を示すことが示唆された。
興味深いことに、教師の発話のみを入力として使用すると、学生中心の変数に対して強い結果が得られ、高品質な音声データを収集して翻訳することの難しさに対する共通の懸念が軽減される。
本研究は,教育領域における現在のNLP技術の可能性と限界を浮き彫りにして,さらなる探究の道を開くものである。
関連論文リスト
- An Exploration of Higher Education Course Evaluation by Large Language Models [4.943165921136573]
人工知能(AI)における大規模言語モデル(LLM)は、コース評価プロセスを強化するための新しい道筋を示す。
本研究は,中国大大学の100コースにわたる厳密な実験を行い,複数の視点から自動コース評価へのLLMの適用について検討した。
論文 参考訳(メタデータ) (2024-11-03T20:43:52Z) - Evaluating and Optimizing Educational Content with Large Language Model Judgments [52.33701672559594]
言語モデル(LM)を教育専門家として活用し,学習結果に対する様々な指導の影響を評価する。
本稿では,一方のLMが他方のLMの判断を報酬関数として利用して命令材料を生成する命令最適化手法を提案する。
ヒトの教師によるこれらのLM生成ワークシートの評価は、LM判定と人間の教師の嗜好との間に有意な整合性を示す。
論文 参考訳(メタデータ) (2024-03-05T09:09:15Z) - Human-AI Collaborative Essay Scoring: A Dual-Process Framework with LLMs [13.262711792955377]
本研究では,Large Language Models (LLMs) のエッセイ自動評価における有効性について検討した。
本稿では,デュアルプロセス理論にインスパイアされたオープンソースのLLMベースのAESシステムを提案する。
本システムでは, 学習過程の自動化だけでなく, 成績や効率の向上も図っている。
論文 参考訳(メタデータ) (2024-01-12T07:50:10Z) - Mean BERTs make erratic language teachers: the effectiveness of latent
bootstrapping in low-resource settings [5.121744234312891]
潜伏ブートストラッピングは、言語モデルの事前訓練のための代替のセルフスーパービジョン技術である。
我々は,限られた資源から言語知識を取得するために,このアプローチがいかに効果的かを評価する実験を行う。
論文 参考訳(メタデータ) (2023-10-30T10:31:32Z) - A Hierarchy-based Analysis Approach for Blended Learning: A Case Study
with Chinese Students [12.533646830917213]
本稿では,混合学習評価のための階層型評価手法を提案する。
その結果、混合学習評価において、認知的エンゲージメントと感情的エンゲージメントがより重要であることが示された。
論文 参考訳(メタデータ) (2023-09-19T00:09:00Z) - Aligning Large Language Models with Human: A Survey [53.6014921995006]
広範囲なテキストコーパスで訓練されたLarge Language Models (LLM) は、幅広い自然言語処理(NLP)タスクの先導的なソリューションとして登場した。
その顕著な性能にもかかわらず、これらのモデルは、人間の指示を誤解したり、偏見のあるコンテンツを生成したり、事実的に誤った情報を生成するといった、ある種の制限を受ける傾向にある。
本調査では,これらのアライメント技術の概要について概観する。
論文 参考訳(メタデータ) (2023-07-24T17:44:58Z) - Few-shot Named Entity Recognition with Cloze Questions [3.561183926088611]
本稿では,クローゼクエスト機構とファインチューニングを併用した数ショット学習手法であるPET(Pattern-Exploiting Training)の簡易かつ直感的な適応を提案する。
提案手法は,他の数発のベースラインに対して,標準的な微調整や同等あるいは改良された結果よりもはるかに優れた性能を実現する。
論文 参考訳(メタデータ) (2021-11-24T11:08:59Z) - Towards Quantifiable Dialogue Coherence Evaluation [126.55560816209756]
量的対話コヒーレンス評価(QuantiDCE)は,量的対話コヒーレンス尺度の学習を目的とした新しいフレームワークである。
QuantiDCEには、Multi-Level Ranking (MLR) pre-training (KD) fine-tuning (Multi-Level Ranking)とKD (KD) fine-tuning (KD) という2つの訓練段階が含まれている。
実験結果から,QuantiDCEによりトレーニングされたモデルは,他の最先端の指標に比べて,人間の判断と強い相関関係を示すことが示された。
論文 参考訳(メタデータ) (2021-06-01T14:11:17Z) - Exploring Bayesian Deep Learning for Urgent Instructor Intervention Need
in MOOC Forums [58.221459787471254]
大規模なオープンオンラインコース(MOOC)は、その柔軟性のおかげで、eラーニングの一般的な選択肢となっている。
多くの学習者とその多様な背景から、リアルタイムサポートの提供は課税されている。
MOOCインストラクターの大量の投稿と高い作業負荷により、インストラクターが介入を必要とするすべての学習者を識別できる可能性は低いです。
本稿では,モンテカルロドロップアウトと変分推論という2つの手法を用いて,学習者によるテキスト投稿のベイジアン深層学習を初めて検討する。
論文 参考訳(メタデータ) (2021-04-26T15:12:13Z) - The Challenges of Assessing and Evaluating the Students at Distance [77.34726150561087]
新型コロナウイルス(COVID-19)の感染拡大が高等教育機関に強い影響を及ぼし、教室の授業は中止された。
本論文は、ポルトガルの高等教育機関がもたらす課題を探求し、評価モデルにもたらす課題を分析することを目的としている。
論文 参考訳(メタデータ) (2021-01-30T13:13:45Z) - Neural Multi-Task Learning for Teacher Question Detection in Online
Classrooms [50.19997675066203]
教師の音声記録から質問を自動的に検出するエンドツーエンドのニューラルネットワークフレームワークを構築している。
マルチタスク学習手法を取り入れることで,質問の種類によって意味的関係の理解を深めることが可能となる。
論文 参考訳(メタデータ) (2020-05-16T02:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。