論文の概要: Automated Evaluation of Classroom Instructional Support with LLMs and
BoWs: Connecting Global Predictions to Specific Feedback
- arxiv url: http://arxiv.org/abs/2310.01132v1
- Date: Mon, 2 Oct 2023 12:11:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 22:00:09.427313
- Title: Automated Evaluation of Classroom Instructional Support with LLMs and
BoWs: Connecting Global Predictions to Specific Feedback
- Title(参考訳): LLMとBoWによる授業支援の自動評価:グローバル予測と特定のフィードバックを結びつける
- Authors: Jacob Whitehill and Jennifer LoCasale-Crouch
- Abstract要約: 大規模言語モデル(LLM)は、CLLASS(CLassroom Assessment Scoring System)のインストラクショナルサポートのドメインスコアを推定するために用いられる。
メタのLlama2のゼロショットプロンプトと/または古典的なBag of Words(BoW)モデルを利用する機械学習アーキテクチャを設計する。
そこで本研究では,教師に対して,特定のCLASS次元に最も正あるいは負の相関関係を持つ発話について,教師に説明可能なフィードバックを提供するために,モデルの出力を発話レベルで可視化する方法を示す。
- 参考スコア(独自算出の注目度): 11.240642213359267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the aim to provide teachers with more specific, frequent, and actionable
feedback about their teaching, we explore how Large Language Models (LLMs) can
be used to estimate ``Instructional Support'' domain scores of the CLassroom
Assessment Scoring System (CLASS), a widely used observation protocol. We
design a machine learning architecture that uses either zero-shot prompting of
Meta's Llama2, and/or a classic Bag of Words (BoW) model, to classify
individual utterances of teachers' speech (transcribed automatically using
OpenAI's Whisper) for the presence of 11 behavioral indicators of Instructional
Support. Then, these utterance-level judgments are aggregated over an entire
15-min observation session to estimate a global CLASS score. Experiments on two
CLASS-coded datasets of toddler and pre-kindergarten classrooms indicate that
(1) automatic CLASS Instructional Support estimation accuracy using the
proposed method (Pearson $R$ up to $0.46$) approaches human inter-rater
reliability (up to $R=0.55$); (2) LLMs yield slightly greater accuracy than BoW
for this task; and (3) the best models often combined features extracted from
both LLM and BoW. Finally, (4) we illustrate how the model's outputs can be
visualized at the utterance level to provide teachers with explainable feedback
on which utterances were most positively or negatively correlated with specific
CLASS dimensions.
- Abstract(参考訳): 教師により具体的で頻繁で行動可能な授業フィードバックを提供することを目的として,広範言語モデル(LLM)を用いて,広く使用されている観察プロトコルであるCLLASS(CLassroom Assessment Scoring System)の「インストラクショナルサポート」ドメインスコアを推定する方法について検討した。
教師の発話(openaiのささやきで自動的に書き起こされる)の個々の発話を11の行動指標で分類するために、メタのllama2モデルのゼロショットプロンプトと/または古典的な単語の袋(bow)モデルを使用する機械学習アーキテクチャを設計した。
そして、これらの発話レベル判定を15分間の観察セッション全体にわたって集約し、グローバルクラススコアを推定する。
幼児と幼稚園前教室の2つのCLASS符号化データセットを用いた実験では、(1)提案手法を用いて自動CLASS教育支援推定精度(Pearson $R$から0.46$まで)が、人体間の信頼性(R=0.55$まで)に近づくこと、(2)LLMがBoWよりも若干精度が高いこと、(3)LLMとBoWの両方から抽出される最良のモデルが組み合わさっていることが示されている。
最後に,モデルの出力を発話レベルで可視化し,どの発話が最も肯定的か否定的にクラス次元に関連付けられたかを教師に説明可能なフィードバックを与える方法を示す。
関連論文リスト
- A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look [52.114284476700874]
本稿では,4つの異なる関連性評価手法が展開された大規模評価(TREC 2024 RAG Track)の結果について報告する。
自動生成UMBRELA判定は、完全に手動による判断を置き換えて、実行レベルの有効性を正確に捉えることができる。
意外なことに、LLMアシストは完全な手作業による評価と相関を増さないようで、人間のループプロセスに関連するコストは明らかな有意義な利益をもたらすものではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-13T01:12:35Z) - CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - Automated Assessment of Encouragement and Warmth in Classrooms Leveraging Multimodal Emotional Features and ChatGPT [7.273857543125784]
本研究は,教室における暖かさと励ましを自動的に推定するマルチモーダルアプローチである。
映像,音声,転写データから解釈可能な特徴を抽出するために,感情分析を用いた顔と音声の感情認識を用いた。
92の授業記録から367の16分間のビデオセグメントを含むGTIデータセットに対するアプローチを実証した。
論文 参考訳(メタデータ) (2024-04-01T16:58:09Z) - Enhancing Visual Continual Learning with Language-Guided Supervision [76.38481740848434]
継続的な学習は、モデルが以前獲得した知識を忘れずに新しいタスクを学習できるようにすることを目的としている。
ワンホットラベルが伝達する少ない意味情報は,タスク間の効果的な知識伝達を妨げている,と我々は主張する。
具体的には, PLM を用いて各クラスのセマンティックターゲットを生成し, 凍結し, 監視信号として機能する。
論文 参考訳(メタデータ) (2024-03-24T12:41:58Z) - Combining EEG and NLP Features for Predicting Students' Lecture
Comprehension using Ensemble Classification [0.7964328411060118]
提案フレームワークは,脳波とNLPの特徴抽出,処理,分類を含む。
脳波とNLPの特徴を抽出し、記録された脳波信号と文レベルの構文解析から得られる統合的な特徴を構築する。
実験の結果,本フレームワークはベースラインよりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-11-18T14:35:26Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - A Global Model Approach to Robust Few-Shot SAR Automatic Target
Recognition [6.260916845720537]
ディープラーニングベースのSAR自動ターゲット認識(ATR)モデルをトレーニングするために、クラス毎に数百のラベル付きサンプルを収集できるとは限らない。
この研究は特に数発のSAR ATR問題に対処しており、興味のあるタスクをサポートするためにラベル付きサンプルがわずかである。
論文 参考訳(メタデータ) (2023-03-20T00:24:05Z) - Automated Speech Scoring System Under The Lens: Evaluating and
interpreting the linguistic cues for language proficiency [26.70127591966917]
従来の機械学習モデルを用いて、音声認識タスクを分類と回帰問題の両方として定式化する。
まず,5つのカテゴリー(頻度,発音,内容,文法,語彙,音響)で言語学の特徴を抽出し,応答を学習する。
比較すると,回帰に基づくモデルでは,分類法と同等かそれ以上の性能があることがわかった。
論文 参考訳(メタデータ) (2021-11-30T06:28:58Z) - CLASTER: Clustering with Reinforcement Learning for Zero-Shot Action
Recognition [52.66360172784038]
各インスタンスを個別に最適化するのではなく,すべてのトレーニングサンプルを同時に考慮したクラスタリングモデルを提案する。
提案手法をCLASTERと呼び,すべての標準データセットの最先端性を常に改善することを確認する。
論文 参考訳(メタデータ) (2021-01-18T12:46:24Z) - A Probabilistic End-To-End Task-Oriented Dialog Model with Latent Belief
States towards Semi-Supervised Learning [22.757971831442426]
信念トラッカーのトレーニングには、ユーザーの発話ごとに高価なターンレベルのアノテーションが必要となることが多い。
本稿では,確率的対話モデルであるLAtent BElief State (LABES)モデルを提案する。
LABES-S2Sは、LABESのSeq2Seqモデルインスタンス化のコピーである。
論文 参考訳(メタデータ) (2020-09-17T07:26:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。