論文の概要: Toward Automated Qualitative Analysis: Leveraging Large Language Models for Tutoring Dialogue Evaluation
- arxiv url: http://arxiv.org/abs/2504.13882v1
- Date: Thu, 03 Apr 2025 15:08:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.635606
- Title: Toward Automated Qualitative Analysis: Leveraging Large Language Models for Tutoring Dialogue Evaluation
- Title(参考訳): 質的自動分析に向けて:対話評価のチューニングのための大規模言語モデルを活用する
- Authors: Megan Gu, Chloe Qianhui Zhao, Claire Liu, Nikhil Patel, Jahnvi Shah, Jionghao Lin, Kenneth R. Koedinger,
- Abstract要約: 本研究では,大きな言語モデル(LLM)を活用して,5つの指導戦略の有効性を評価するシステムを提案する。
教員-学生チャットルームの公開データセットを用いて、学習戦略を、希望的または望ましくないものとして採用するかのどちらかに分類する。
- 参考スコア(独自算出の注目度): 1.7590081165362783
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Our study introduces an automated system leveraging large language models (LLMs) to assess the effectiveness of five key tutoring strategies: 1. giving effective praise, 2. reacting to errors, 3. determining what students know, 4. helping students manage inequity, and 5. responding to negative self-talk. Using a public dataset from the Teacher-Student Chatroom Corpus, our system classifies each tutoring strategy as either being employed as desired or undesired. Our study utilizes GPT-3.5 with few-shot prompting to assess the use of these strategies and analyze tutoring dialogues. The results show that for the five tutoring strategies, True Negative Rates (TNR) range from 0.655 to 0.738, and Recall ranges from 0.327 to 0.432, indicating that the model is effective at excluding incorrect classifications but struggles to consistently identify the correct strategy. The strategy \textit{helping students manage inequity} showed the highest performance with a TNR of 0.738 and Recall of 0.432. The study highlights the potential of LLMs in tutoring strategy analysis and outlines directions for future improvements, including incorporating more advanced models for more nuanced feedback.
- Abstract(参考訳): 本研究は,大規模言語モデル(LLM)を活用した5つの指導方法の有効性評価システムを提案する。
1 効果的に褒められること
2. エラーに対する反応
3.生徒が知っていることを決めること
4 生徒が不平等を管理するのを手伝うこと
5. ネガティブな自己主張に反応する。
教員-学生チャットルームコーパスの公開データセットを用いて、学習戦略を、希望的または望ましくないものとして採用するかのどちらかに分類する。
本研究はGPT-3.5を用いて,これらの戦略の活用と学習対話の分析を行う。
その結果,5つの学習戦略において,True Negative Rates (TNR) は 0.655 から 0.738 まで,Recall は 0.327 から 0.432 までの範囲で,不正確な分類を除外する上で有効であるが,常に正しい戦略を特定するのに苦慮していることが示された。
その戦略である「textit{helping students management inequity」は、TNRが0.738、リコールが0.432で最高性能を示した。
この研究は、学習戦略分析におけるLLMの可能性を強調し、より複雑なフィードバックのためのより高度なモデルを含め、今後の改善に向けた方向性を概説している。
関連論文リスト
- Single-Agent vs. Multi-Agent LLM Strategies for Automated Student Reflection Assessment [16.145339327301816]
大規模言語モデル(LLM)は、学生の反射を定量的スコアに変換する。
LLMは、リフレクションアセスメントを効果的に自動化し、教育者の作業量を削減し、学生のタイムリーなサポートを可能にする。
論文 参考訳(メタデータ) (2025-04-08T06:34:15Z) - Can Large Language Models Match Tutoring System Adaptivity? A Benchmarking Study [0.0]
大規模言語モデル(LLM)は動的命令補助として約束を守る。
しかし、LLMが知的チューリングシステム(ITS)の適応性を再現できるかどうかは不明である。
論文 参考訳(メタデータ) (2025-04-07T23:57:32Z) - Training LLM-based Tutors to Improve Student Learning Outcomes in Dialogues [46.60683274479208]
本稿では,大規模言語モデル(LLM)を訓練し,学生の正当性を最大化するチューター発話を生成する手法を提案する。
モデルにより生成された教師発話が,学生の正答率を著しく高めることを示す。
論文 参考訳(メタデータ) (2025-03-09T03:38:55Z) - Automated Feedback in Math Education: A Comparative Analysis of LLMs for Open-Ended Responses [0.0]
本研究では,大規模言語モデル(LLM)が数学教育における自動フィードバックを促進する可能性を探究することを目的とする。
我々は,Llamaの数学版であるMistralを採用し,このモデルを用いて,中学校数学問題に対する生徒の回答と教師によるフィードバックのデータセットを活用することによって,学生の反応を評価する。
2人の教師の判断を生かして,評価精度とフィードバックの質を評価する。
論文 参考訳(メタデータ) (2024-10-29T16:57:45Z) - An Automatic and Cost-Efficient Peer-Review Framework for Language Generation Evaluation [29.81362106367831]
既存の評価手法は、しばしば高いコスト、限られたテスト形式、人間の参照の必要性、体系的な評価バイアスに悩まされる。
人間のアノテーションに依存する以前の研究とは対照的に、Auto-PREはそれら固有の特性に基づいて自動的に評価者を選択する。
実験結果から,我々のAuto-PREは最先端の性能を低コストで達成できることが示された。
論文 参考訳(メタデータ) (2024-10-16T06:06:06Z) - Evaluating Fine-Tuning Efficiency of Human-Inspired Learning Strategies in Medical Question Answering [1.912429179274357]
本研究では,4つの言語モデル,3つのデータセット,および人間とLLMを併用したデータを用いた5つの人為的戦略の微調整効率を評価する。
ストラテジーは、データセット全体で1.81%、平均1.02%の精度向上を達成する。
論文 参考訳(メタデータ) (2024-08-15T02:22:48Z) - Evaluating and Optimizing Educational Content with Large Language Model Judgments [52.33701672559594]
言語モデル(LM)を教育専門家として活用し,学習結果に対する様々な指導の影響を評価する。
本稿では,一方のLMが他方のLMの判断を報酬関数として利用して命令材料を生成する命令最適化手法を提案する。
ヒトの教師によるこれらのLM生成ワークシートの評価は、LM判定と人間の教師の嗜好との間に有意な整合性を示す。
論文 参考訳(メタデータ) (2024-03-05T09:09:15Z) - Improving the Validity of Automatically Generated Feedback via Reinforcement Learning [46.667783153759636]
強化学習(RL)を用いた正当性と整合性の両方を最適化するフィードバック生成フレームワークを提案する。
具体的には、直接選好最適化(DPO)によるトレーニングのための拡張データセットにおいて、GPT-4のアノテーションを使用してフィードバックペアよりも好みを生成する。
論文 参考訳(メタデータ) (2024-03-02T20:25:50Z) - Automating Dataset Updates Towards Reliable and Timely Evaluation of Large Language Models [81.27391252152199]
大規模言語モデル(LLM)は、さまざまな自然言語ベンチマークで素晴らしいパフォーマンスを実現している。
本稿では、データセットの自動更新と、その有効性に関する体系的な分析を提案する。
1) 類似したサンプルを生成するための戦略を模倣すること,2) 既存のサンプルをさらに拡張する戦略を拡張すること,である。
論文 参考訳(メタデータ) (2024-02-19T07:15:59Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - StrategyLLM: Large Language Models as Strategy Generators, Executors, Optimizers, and Evaluators for Problem Solving [76.5322280307861]
StrategyLLM は LLM が帰納的推論、特定のタスクインスタンスからの一般的な戦略の導出、帰納的推論を可能にし、これらの一般的な戦略を特定のタスク例に適用し、一般化可能で一貫した数発のプロンプトを構築する。
実験の結果、StrategyLLMは、数学推論(34.2%$rightarrow$38.8%)、コモンセンス推論(70.3%$rightarrow$72.5%)、アルゴリズム推論(73.7%$rightarrow$85.0)を含む、4つの難しいタスクにまたがる13のデータセットに対して、人間によるアノテートソリューションを必要とする競争ベースラインのCoT-SCよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-11-15T09:18:09Z) - Opportunities and Challenges in Neural Dialog Tutoring [54.07241332881601]
言語学習のための2つの対話学習データセットを用いて、様々な生成言語モデルを厳密に分析する。
現在のアプローチでは、制約のある学習シナリオでチューリングをモデル化できますが、制約の少ないシナリオではパフォーマンスが悪くなります。
人的品質評価では, モデルと接地木アノテーションの両方が, 同等のチュータリングの点で低い性能を示した。
論文 参考訳(メタデータ) (2023-01-24T11:00:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。