論文の概要: Evaluating Large Language Models in Analysing Classroom Dialogue
- arxiv url: http://arxiv.org/abs/2402.02380v2
- Date: Tue, 6 Feb 2024 07:49:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 11:26:29.361843
- Title: Evaluating Large Language Models in Analysing Classroom Dialogue
- Title(参考訳): 教室対話の分析における大規模言語モデルの評価
- Authors: Yun Long, Haifeng Luo, Yu Zhang
- Abstract要約: この研究には中学生のデータセットが含まれており、数学と中国語の授業間での教室での対話を含んでいる。
これらの対話は、教育専門家が手作業でコーディングし、カスタマイズされたGPT-4モデルを用いて分析した。
その結果、GPT-4によるかなりの時間節約と、モデルと人間のコーダ間のコーディングにおける高い一貫性が示され、特定のコードではいくつかの相違が見られる。
- 参考スコア(独自算出の注目度): 8.793491910415897
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This study explores the application of Large Language Models (LLMs),
specifically GPT-4, in the analysis of classroom dialogue, a crucial research
task for both teaching diagnosis and quality improvement. Recognizing the
knowledge-intensive and labor-intensive nature of traditional qualitative
methods in educational research, this study investigates the potential of LLM
to streamline and enhance the analysis process. The study involves datasets
from a middle school, encompassing classroom dialogues across mathematics and
Chinese classes. These dialogues were manually coded by educational experts and
then analyzed using a customised GPT-4 model. This study focuses on comparing
manual annotations with the outputs of GPT-4 to evaluate its efficacy in
analyzing educational dialogues. Time efficiency, inter-coder agreement, and
inter-coder reliability between human coders and GPT-4 are evaluated. Results
indicate substantial time savings with GPT-4, and a high degree of consistency
in coding between the model and human coders, with some discrepancies in
specific codes. These findings highlight the strong potential of LLM in
teaching evaluation and facilitation.
- Abstract(参考訳): 本研究は,大規模言語モデル(LLM),特に GPT-4 を教室内対話の分析に適用し,診断と品質改善の両面において重要な研究課題である。
教育研究における伝統的質的手法の知識集約的かつ労働集約的性質を認識し,llmが分析プロセスを合理化し,強化する可能性について検討した。
この研究は、数学と中国語の授業を通して教室の対話を包含する中学のデータセットを含んでいる。
これらの対話は、教育専門家が手作業でコーディングし、カスタマイズされたGPT-4モデルを用いて分析した。
本研究は,手動アノテーションとGPT-4の出力を比較し,教育対話の分析の有効性を評価することを目的とした。
人間のコーダとGPT-4間の時間効率、コーダ間合意、およびコーダ間信頼性を評価する。
結果から、gpt-4による時間節約と、モデルと人間のコーダ間のコーディングの一貫性の高まりが示され、特定のコードに多少の相違がある。
これらの知見は、LLMの教育評価とファシリテーションにおける強みを浮き彫りにした。
関連論文リスト
- Exploring Knowledge Tracing in Tutor-Student Dialogues [53.52699766206808]
本稿では,教師と学生の対話における知識追跡(KT)の最初の試みについて述べる。
そこで本研究では,対話の各ターンに係わる知識コンポーネントやスキルを同定する手法を提案する。
次に,得られたラベル付きデータに様々なKT手法を適用し,対話全体を通して学生の知識レベルを追跡する。
論文 参考訳(メタデータ) (2024-09-24T22:31:39Z) - Putting GPT-4o to the Sword: A Comprehensive Evaluation of Language, Vision, Speech, and Multimodal Proficiency [3.161954199291541]
本研究は, GPT-4oの言語, 視覚, 音声, マルチモーダル能力を包括的に評価する。
GPT-4oは、言語と推論能力において、複数のドメインにわたる高い精度と効率を示す。
モデルは可変性を示し、複雑であいまいな入力を扱う際の制限に直面している。
論文 参考訳(メタデータ) (2024-06-19T19:00:21Z) - InFoBench: Evaluating Instruction Following Ability in Large Language
Models [57.27152890085759]
Decomposed Requirements following Ratio (DRFR) は、命令に従うLarge Language Models (LLM) 能力を評価するための新しい指標である。
InFoBenchは500の多様な命令と2250の分解された質問を複数の制約カテゴリに分けたベンチマークである。
論文 参考訳(メタデータ) (2024-01-07T23:01:56Z) - GPT-4 Surpassing Human Performance in Linguistic Pragmatics [0.0]
本研究では,Large Language Models (LLMs) の言語プラグマティクスの理解と解釈能力について検討した。
Grice のコミュニケーション原理を用いて,LLM とヒトの被験者を対話型タスクに対する応答に基づいて評価した。
以上の結果より, LLM, 特にGPT4は, 実用的解釈において, 人体よりも優れていた。
論文 参考訳(メタデータ) (2023-12-15T05:40:15Z) - From Voices to Validity: Leveraging Large Language Models (LLMs) for
Textual Analysis of Policy Stakeholder Interviews [14.135107583299277]
本研究では,米国内におけるK-12教育政策に関するステークホルダインタビューのテキスト分析を強化するために,大規模言語モデル(LLM)と人間の専門知識の統合について検討する。
混合メソッドのアプローチを用いて、ドメイン知識や教師なしトピックモデリングの結果から情報を得たコードブックとコーディングプロセスを開発した。
結果、GPT-4のテーマは、特定のテーマで77.89%の精度で人間のコーディングと一致しているが、より広いテーマが一致し96.02%に拡大し、従来の自然言語処理(NLP)の手法を25%以上上回った。
論文 参考訳(メタデータ) (2023-12-02T18:55:14Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Exploring the Factual Consistency in Dialogue Comprehension of Large Language Models [51.75805497456226]
本研究は,対話要約タスクの助けを借りて,事実整合性の問題に焦点を当てる。
評価の結果,LLMが生成する要約の26.8%が事実整合性を含んでいることがわかった。
LLMの対話理解能力を高めるために,自動構築マルチタスクデータを用いた微調整パラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-13T09:32:12Z) - Harnessing the Power of Large Language Models for Empathetic Response Generation: Empirical Investigations and Improvements [28.630542719519855]
本研究では,大規模言語モデル(LLM)の共感応答生成における性能について実験的に検討する。
大規模な実験により, LLMは提案手法の利点を大いに生かし, 自動評価と人的評価の両方で最先端の性能を達成できることが示されている。
論文 参考訳(メタデータ) (2023-10-08T12:21:24Z) - A Large Language Model Approach to Educational Survey Feedback Analysis [0.0]
本稿では,大規模言語モデル(LLM) GPT-4 と GPT-3.5 が教育フィードバック調査から洞察を得るのに役立つ可能性について検討する。
論文 参考訳(メタデータ) (2023-09-29T17:57:23Z) - Multi-Dimensional Evaluation of Text Summarization with In-Context
Learning [79.02280189976562]
本稿では,テキスト内学習を用いた多次元評価器として,大規模言語モデルの有効性について検討する。
実験の結果,テキスト要約作業において,文脈内学習に基づく評価手法が学習評価フレームワークと競合していることが判明した。
次に、テキスト内サンプルの選択や数などの要因がパフォーマンスに与える影響を分析する。
論文 参考訳(メタデータ) (2023-06-01T23:27:49Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。