Fugu-MT 論文翻訳(概要): Automated Evaluation of Classroom Instructional Support with LLMs and BoWs: Connecting Global Predictions to Specific Feedback

論文の概要: Automated Evaluation of Classroom Instructional Support with LLMs and BoWs: Connecting Global Predictions to Specific Feedback

arxiv url: http://arxiv.org/abs/2310.01132v3
Date: Mon, 26 Feb 2024 16:12:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-28 22:20:14.806953
Title: Automated Evaluation of Classroom Instructional Support with LLMs and BoWs: Connecting Global Predictions to Specific Feedback
Title（参考訳）: LLMとBoWによる授業支援の自動評価:グローバル予測と特定のフィードバックを結びつける
Authors: Jacob Whitehill and Jennifer LoCasale-Crouch
Abstract要約: 大規模言語モデル(LLM)は、CLLASS(CLassroom Assessment Scoring System)のインストラクショナルサポートのドメインスコアを推定するために用いられる。我々はメタピアソンのLlama2のゼロショットプロンプトと/または古典的なBag of Words(BoW)モデルを用いて、教師の発話の個々の発話を分類する機械学習アーキテクチャを設計する。これらの発話レベルの判断は15分間の観察セッションに集約され、グローバルなCLASSスコアを推定する。
参考スコア（独自算出の注目度）: 11.240642213359267
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the aim to provide teachers with more specific, frequent, and actionable feedback about their teaching, we explore how Large Language Models (LLMs) can be used to estimate ``Instructional Support'' domain scores of the CLassroom Assessment Scoring System (CLASS), a widely used observation protocol. We design a machine learning architecture that uses either zero-shot prompting of Meta's Llama2, and/or a classic Bag of Words (BoW) model, to classify individual utterances of teachers' speech (transcribed automatically using OpenAI's Whisper) for the presence of Instructional Support. Then, these utterance-level judgments are aggregated over a 15-min observation session to estimate a global CLASS score. Experiments on two CLASS-coded datasets of toddler and pre-kindergarten classrooms indicate that (1) automatic CLASS Instructional Support estimation accuracy using the proposed method (Pearson $R$ up to $0.48$) approaches human inter-rater reliability (up to $R=0.55$); (2) LLMs generally yield slightly greater accuracy than BoW for this task, though the best models often combined features extracted from both LLM and BoW; and (3) for classifying individual utterances, there is still room for improvement of automated methods compared to human-level judgments. Finally, (4) we illustrate how the model's outputs can be visualized at the utterance level to provide teachers with explainable feedback on which utterances were most positively or negatively correlated with specific CLASS dimensions.
Abstract（参考訳）: 教師により具体的で頻繁で行動可能な授業フィードバックを提供することを目的として,広範言語モデル(LLM)を用いて,広く使用されている観察プロトコルであるCLLASS(CLassroom Assessment Scoring System)の「インストラクショナルサポート」ドメインスコアを推定する方法について検討した。我々は,メタのLlama2のゼロショットプロンプトと/または古典的なBag of Words(BoW)モデルを用いて,教師の発話(OpenAIのWhisperで自動的に書き起こされる)の個別発話を教育支援の有無で分類する機械学習アーキテクチャを設計する。そして、これらの発話レベルの判断を15分間の観察セッションに集約し、グローバルCLASSスコアを推定する。 Experiments on two CLASS-coded datasets of toddler and pre-kindergarten classrooms indicate that (1) automatic CLASS Instructional Support estimation accuracy using the proposed method (Pearson $R$ up to $0.48$) approaches human inter-rater reliability (up to $R=0.55$); (2) LLMs generally yield slightly greater accuracy than BoW for this task, though the best models often combined features extracted from both LLM and BoW; and (3) for classifying individual utterances, there is still room for improvement of automated methods compared to human-level judgments. 最後に,モデルの出力を発話レベルで可視化し,どの発話が最も肯定的か否定的にクラス次元に関連付けられたかを教師に説明可能なフィードバックを与える方法を示す。

関連論文リスト

Beyond Holistic Scores: Automatic Trait-Based Quality Scoring of Argumentative Essays [15.895792302323883]
教育の文脈では、教師と学習者は解釈可能な特性レベルのフィードバックを必要とする。本稿では,2つの相補的モデリングパラダイムを用いた特徴量に基づく自動弁別評価手法について検討する。スコア・オーディナリティを明示的にモデル化することは、人間のレーダとの合意を著しく改善することを示します。
論文参考訳（メタデータ） (2026-02-04T14:30:52Z)
Measuring Teaching with LLMs [4.061135251278187]
本稿では,文レベルの埋め込みをベースとした独自のLarge Language Modelを使用する。これらの特化モデルは,0.65以上の専門家による評価で,人間レベルおよび超人的性能を達成可能であることを示す。また,総合的なモデルスコアは教師の付加価値尺度と一致し,生徒の学習に関連する特徴を捉えていることを示す。
論文参考訳（メタデータ） (2025-10-27T03:42:04Z)
TutorBench: A Benchmark To Assess Tutoring Capabilities Of Large Language Models [10.963195858672627]
TutorBenchは、大規模言語モデル(LLM)のコアチューリングスキルを厳格に評価するために設計されたデータセットと評価ベンチマークである。サンプルは、(i)学生の混乱に合わせた適応的な説明を生成すること、(ii)学生の作業に対して実行可能なフィードバックを提供すること、(iii)効果的なヒント生成を通じて活発な学習を促進すること、の3つの一般的な学習課題から抽出される。我々はTutorBench上で16個のフロンティアLLMを評価し,その性能と挙動を詳細に解析した。
論文参考訳（メタデータ） (2025-10-03T01:41:09Z)
Benchmarking Large Language Models for Personalized Guidance in AI-Enhanced Learning [4.990353320509215]
大規模言語モデル(LLM)は、パーソナライズされた学習のためのインテリジェントアシスタントとしてますます考えられている。本研究では,現実的な学習環境を模擬した学習課題における3つの最先端LLMの実証的比較を行った。
論文参考訳（メタデータ） (2025-09-02T14:21:59Z)
BD at BEA 2025 Shared Task: MPNet Ensembles for Pedagogical Mistake Identification and Localization in AI Tutor Responses [0.7475784495279183]
本稿では,AIを活用したチュータの教育能力評価に関するBEA 2025共有タスクについて紹介する。我々のシステムは、BERTとXLNetの事前学習の利点を組み合わせたトランスフォーマーベースの言語モデルMPNet上に構築されている。提案手法は両トラックにおいて, 一致マクロF1スコアが約0.7110, ミステイク同定が約0.5543, 公式テストセットが0.5543であった。
論文参考訳（メタデータ） (2025-06-02T15:57:49Z)
Capturing Nuanced Preferences: Preference-Aligned Distillation for Small Language Models [22.613040767122225]
教師の選好知識を全ての潜在的選好に対する確率分布としてモデル化した選好適応蒸留フレームワークを提案する。 4つの主流アライメントベンチマークの実験では、PADが既存のアプローチよりも一貫して、大幅に優れていることが示されている。
論文参考訳（メタデータ） (2025-02-20T05:18:23Z)
Language Models are Few-Shot Graders [0.12289361708127876]
我々は最先端のLCMを利用したASAGパイプラインを提案する。 GPT-4、GPT-4o、o1-previewの3つのOpenAIモデルのグレーディング性能を比較した。以上の結果より,RAGによる選択はランダム選択よりも優れており,グレードドドサンプルを提供することでグレーディング精度が向上することが示唆された。
論文参考訳（メタデータ） (2025-02-18T23:38:21Z)
A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look [52.114284476700874]
本稿では,4つの異なる関連性評価手法が展開された大規模評価(TREC 2024 RAG Track)の結果について報告する。自動生成UMBRELA判定は、完全に手動による判断を置き換えて、実行レベルの有効性を正確に捉えることができる。意外なことに、LLMアシストは完全な手作業による評価と相関を増さないようで、人間のループプロセスに関連するコストは明らかな有意義な利益をもたらすものではないことを示唆している。
論文参考訳（メタデータ） (2024-11-13T01:12:35Z)
CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。 CompassJudger-1は、優れた汎用性を示す汎用LLMである。 textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文参考訳（メタデータ） (2024-10-21T17:56:51Z)
CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文参考訳（メタデータ） (2024-09-19T17:59:52Z)
Automated Assessment of Encouragement and Warmth in Classrooms Leveraging Multimodal Emotional Features and ChatGPT [7.273857543125784]
本研究は,教室における暖かさと励ましを自動的に推定するマルチモーダルアプローチである。映像,音声,転写データから解釈可能な特徴を抽出するために,感情分析を用いた顔と音声の感情認識を用いた。 92の授業記録から367の16分間のビデオセグメントを含むGTIデータセットに対するアプローチを実証した。
論文参考訳（メタデータ） (2024-04-01T16:58:09Z)
Enhancing Visual Continual Learning with Language-Guided Supervision [76.38481740848434]
継続的な学習は、モデルが以前獲得した知識を忘れずに新しいタスクを学習できるようにすることを目的としている。ワンホットラベルが伝達する少ない意味情報は,タスク間の効果的な知識伝達を妨げている,と我々は主張する。具体的には, PLM を用いて各クラスのセマンティックターゲットを生成し, 凍結し, 監視信号として機能する。
論文参考訳（メタデータ） (2024-03-24T12:41:58Z)
Combining EEG and NLP Features for Predicting Students' Lecture Comprehension using Ensemble Classification [0.7964328411060118]
提案フレームワークは,脳波とNLPの特徴抽出,処理,分類を含む。脳波とNLPの特徴を抽出し、記録された脳波信号と文レベルの構文解析から得られる統合的な特徴を構築する。実験の結果,本フレームワークはベースラインよりも優れた性能を示した。
論文参考訳（メタデータ） (2023-11-18T14:35:26Z)
FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文参考訳（メタデータ） (2023-07-20T14:56:35Z)
A Global Model Approach to Robust Few-Shot SAR Automatic Target Recognition [6.260916845720537]
ディープラーニングベースのSAR自動ターゲット認識(ATR)モデルをトレーニングするために、クラス毎に数百のラベル付きサンプルを収集できるとは限らない。この研究は特に数発のSAR ATR問題に対処しており、興味のあるタスクをサポートするためにラベル付きサンプルがわずかである。
論文参考訳（メタデータ） (2023-03-20T00:24:05Z)
Automated Speech Scoring System Under The Lens: Evaluating and interpreting the linguistic cues for language proficiency [26.70127591966917]
従来の機械学習モデルを用いて、音声認識タスクを分類と回帰問題の両方として定式化する。まず,5つのカテゴリー(頻度,発音,内容,文法,語彙,音響)で言語学の特徴を抽出し,応答を学習する。比較すると,回帰に基づくモデルでは,分類法と同等かそれ以上の性能があることがわかった。
論文参考訳（メタデータ） (2021-11-30T06:28:58Z)
CLASTER: Clustering with Reinforcement Learning for Zero-Shot Action Recognition [52.66360172784038]
各インスタンスを個別に最適化するのではなく,すべてのトレーニングサンプルを同時に考慮したクラスタリングモデルを提案する。提案手法をCLASTERと呼び,すべての標準データセットの最先端性を常に改善することを確認する。
論文参考訳（メタデータ） (2021-01-18T12:46:24Z)
A Probabilistic End-To-End Task-Oriented Dialog Model with Latent Belief States towards Semi-Supervised Learning [22.757971831442426]
信念トラッカーのトレーニングには、ユーザーの発話ごとに高価なターンレベルのアノテーションが必要となることが多い。本稿では,確率的対話モデルであるLAtent BElief State (LABES)モデルを提案する。 LABES-S2Sは、LABESのSeq2Seqモデルインスタンス化のコピーである。
論文参考訳（メタデータ） (2020-09-17T07:26:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。