論文の概要: Automated Evaluation of Classroom Instructional Support with LLMs and
BoWs: Connecting Global Predictions to Specific Feedback
- arxiv url: http://arxiv.org/abs/2310.01132v3
- Date: Mon, 26 Feb 2024 16:12:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 22:20:14.806953
- Title: Automated Evaluation of Classroom Instructional Support with LLMs and
BoWs: Connecting Global Predictions to Specific Feedback
- Title(参考訳): LLMとBoWによる授業支援の自動評価:グローバル予測と特定のフィードバックを結びつける
- Authors: Jacob Whitehill and Jennifer LoCasale-Crouch
- Abstract要約: 大規模言語モデル(LLM)は、CLLASS(CLassroom Assessment Scoring System)のインストラクショナルサポートのドメインスコアを推定するために用いられる。
我々はメタピアソンのLlama2のゼロショットプロンプトと/または古典的なBag of Words(BoW)モデルを用いて、教師の発話の個々の発話を分類する機械学習アーキテクチャを設計する。
これらの発話レベルの判断は15分間の観察セッションに集約され、グローバルなCLASSスコアを推定する。
- 参考スコア(独自算出の注目度): 11.240642213359267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the aim to provide teachers with more specific, frequent, and actionable
feedback about their teaching, we explore how Large Language Models (LLMs) can
be used to estimate ``Instructional Support'' domain scores of the CLassroom
Assessment Scoring System (CLASS), a widely used observation protocol. We
design a machine learning architecture that uses either zero-shot prompting of
Meta's Llama2, and/or a classic Bag of Words (BoW) model, to classify
individual utterances of teachers' speech (transcribed automatically using
OpenAI's Whisper) for the presence of Instructional Support. Then, these
utterance-level judgments are aggregated over a 15-min observation session to
estimate a global CLASS score. Experiments on two CLASS-coded datasets of
toddler and pre-kindergarten classrooms indicate that (1) automatic CLASS
Instructional Support estimation accuracy using the proposed method (Pearson
$R$ up to $0.48$) approaches human inter-rater reliability (up to $R=0.55$);
(2) LLMs generally yield slightly greater accuracy than BoW for this task,
though the best models often combined features extracted from both LLM and BoW;
and (3) for classifying individual utterances, there is still room for
improvement of automated methods compared to human-level judgments. Finally,
(4) we illustrate how the model's outputs can be visualized at the utterance
level to provide teachers with explainable feedback on which utterances were
most positively or negatively correlated with specific CLASS dimensions.
- Abstract(参考訳): 教師により具体的で頻繁で行動可能な授業フィードバックを提供することを目的として,広範言語モデル(LLM)を用いて,広く使用されている観察プロトコルであるCLLASS(CLassroom Assessment Scoring System)の「インストラクショナルサポート」ドメインスコアを推定する方法について検討した。
我々は,メタのLlama2のゼロショットプロンプトと/または古典的なBag of Words(BoW)モデルを用いて,教師の発話(OpenAIのWhisperで自動的に書き起こされる)の個別発話を教育支援の有無で分類する機械学習アーキテクチャを設計する。
そして、これらの発話レベルの判断を15分間の観察セッションに集約し、グローバルCLASSスコアを推定する。
Experiments on two CLASS-coded datasets of toddler and pre-kindergarten classrooms indicate that (1) automatic CLASS Instructional Support estimation accuracy using the proposed method (Pearson $R$ up to $0.48$) approaches human inter-rater reliability (up to $R=0.55$); (2) LLMs generally yield slightly greater accuracy than BoW for this task, though the best models often combined features extracted from both LLM and BoW; and (3) for classifying individual utterances, there is still room for improvement of automated methods compared to human-level judgments.
最後に,モデルの出力を発話レベルで可視化し,どの発話が最も肯定的か否定的にクラス次元に関連付けられたかを教師に説明可能なフィードバックを与える方法を示す。
関連論文リスト
- Combining EEG and NLP Features for Predicting Students' Lecture
Comprehension using Ensemble Classification [0.7964328411060118]
提案フレームワークは,脳波とNLPの特徴抽出,処理,分類を含む。
脳波とNLPの特徴を抽出し、記録された脳波信号と文レベルの構文解析から得られる統合的な特徴を構築する。
実験の結果,本フレームワークはベースラインよりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-11-18T14:35:26Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill
Sets [72.54255857335549]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - A Global Model Approach to Robust Few-Shot SAR Automatic Target
Recognition [6.260916845720537]
ディープラーニングベースのSAR自動ターゲット認識(ATR)モデルをトレーニングするために、クラス毎に数百のラベル付きサンプルを収集できるとは限らない。
この研究は特に数発のSAR ATR問題に対処しており、興味のあるタスクをサポートするためにラベル付きサンプルがわずかである。
論文 参考訳(メタデータ) (2023-03-20T00:24:05Z) - CTDS: Centralized Teacher with Decentralized Student for Multi-Agent
Reinforcement Learning [114.69155066932046]
この作品は小説を提案している。
教師モデルと学生モデルからなる分散学生(C TDS)フレームワーク。
具体的には、教師モデルは、グローバルな観察で条件付けられた個別のQ値を学ぶことで、チームの報酬を割り当てる。
学生モデルは、部分的な観察を利用して、教師モデルによって推定されるQ値を近似する。
論文 参考訳(メタデータ) (2022-03-16T06:03:14Z) - Automated Speech Scoring System Under The Lens: Evaluating and
interpreting the linguistic cues for language proficiency [26.70127591966917]
従来の機械学習モデルを用いて、音声認識タスクを分類と回帰問題の両方として定式化する。
まず,5つのカテゴリー(頻度,発音,内容,文法,語彙,音響)で言語学の特徴を抽出し,応答を学習する。
比較すると,回帰に基づくモデルでは,分類法と同等かそれ以上の性能があることがわかった。
論文 参考訳(メタデータ) (2021-11-30T06:28:58Z) - Layer-wise Analysis of a Self-supervised Speech Representation Model [26.727775920272205]
自己教師付き学習アプローチは、音声表現モデルの事前学習に成功している。
事前訓練された表現そのものに符号化された情報のタイプや範囲についてはあまり研究されていない。
論文 参考訳(メタデータ) (2021-07-10T02:13:25Z) - CLASTER: Clustering with Reinforcement Learning for Zero-Shot Action
Recognition [52.66360172784038]
各インスタンスを個別に最適化するのではなく,すべてのトレーニングサンプルを同時に考慮したクラスタリングモデルを提案する。
提案手法をCLASTERと呼び,すべての標準データセットの最先端性を常に改善することを確認する。
論文 参考訳(メタデータ) (2021-01-18T12:46:24Z) - RADDLE: An Evaluation Benchmark and Analysis Platform for Robust
Task-oriented Dialog Systems [75.87418236410296]
我々はraddleベンチマーク、コーパスのコレクション、および様々なドメインのモデルのパフォーマンスを評価するためのツールを紹介します。
RADDLEは強力な一般化能力を持つモデルを好んで奨励するように設計されている。
先行学習と微調整に基づく最近の最先端システムの評価を行い,異種ダイアログコーパスに基づく基礎的な事前学習が,ドメインごとの個別モデルをトレーニングするよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-29T08:58:49Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z) - A Probabilistic End-To-End Task-Oriented Dialog Model with Latent Belief
States towards Semi-Supervised Learning [22.757971831442426]
信念トラッカーのトレーニングには、ユーザーの発話ごとに高価なターンレベルのアノテーションが必要となることが多い。
本稿では,確率的対話モデルであるLAtent BElief State (LABES)モデルを提案する。
LABES-S2Sは、LABESのSeq2Seqモデルインスタンス化のコピーである。
論文 参考訳(メタデータ) (2020-09-17T07:26:37Z) - Meta-Learning for Short Utterance Speaker Recognition with Imbalance
Length Pairs [65.28795726837386]
不均衡長ペアのためのメタラーニングフレームワークを提案する。
長い発話のサポートセットと様々な長さの短い発話のクエリセットでトレーニングする。
これら2つの学習スキームを組み合わせることで、既存の最先端話者検証モデルよりも優れた性能が得られる。
論文 参考訳(メタデータ) (2020-04-06T17:53:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。