論文の概要: Your Students Don't Use LLMs Like You Wish They Did
- arxiv url: http://arxiv.org/abs/2604.23486v1
- Date: Sun, 26 Apr 2026 01:23:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.388182
- Title: Your Students Don't Use LLMs Like You Wish They Did
- Title(参考訳): 学生のLLMは、自分がやったような使い方はしない
- Authors: Sebastian Kobler, Matthew Clemson, Angela Sun, Jonathan K. Kummerfeld,
- Abstract要約: 学生とAIの対話における教育的アライメントの自動評価のための6つの計算指標を提案する。
4つのコースから500の会話にまたがる12,650のメッセージを分析して測定値を検証する。
我々の測定により、研究者は教育対話システムを構築して、教育目標を達成するかどうかを測定することができる。
- 参考スコア(独自算出の注目度): 8.643506838321354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Educational NLP systems are typically evaluated using engagement metrics and satisfaction surveys, which are at best a proxy for meeting pedagogical goals. We introduce six computational metrics for automated evaluation of pedagogical alignment in student-AI dialogue. We validate our metrics through analysis of 12,650 messages across 500 conversations from four courses. Using our metrics, we identify a fundamental misalignment: educators design conversational tutors for sustained learning dialogue, but students mainly use them for answer-extraction. Deployment context is the strongest predictor of usage patterns, outweighing student preference or system design: when AI tools are optional, usage concentrates around deadlines; when integrated into course structure, students ask for solutions to verbatim assignment questions. Whole-dialogue evaluation misses these turn-by-turn patterns. Our metrics will enable researchers building educational dialogue systems to measure whether they are achieving their pedagogical goals.
- Abstract(参考訳): 教育用NLPシステムは通常、エンゲージメント指標と満足度調査を用いて評価される。
学生とAIの対話における教育的アライメントの自動評価のための6つの計算指標を提案する。
4つのコースから500の会話にまたがる12,650のメッセージを分析して測定値を検証する。
教育者は、持続的な学習対話のための会話型チューターを設計するが、学生は主に回答抽出に使用する。
デプロイコンテキストは、学生の好みやシステム設計を上回る、利用パターンの最も強い予測要因である。AIツールがオプションであれば、利用は期限の周りに集中する。
全対話評価は、これらのターンバイターンパターンを見逃す。
我々の測定により、研究者は教育対話システムを構築して、教育目標を達成するかどうかを測定することができる。
関連論文リスト
- "How Do I ...?": Procedural Questions Predominate Student-LLM Chatbot Conversations [39.146761527401424]
本稿では,学習コンテキストの異なる2つのデータセット,形式的自己学習(formive self-study)と要約的評価コースワーク(summative evaluationed coursework)に焦点をあてる。
11の異なるLarge Language Model(LLM)と3つの人間レーダを用いて、両方の学習文脈から6,113のメッセージを分析した。
以上の結果から,「手続き的」な質問は両学習文脈で優位に立つが,学生が要約的評価の準備をする場合には,その傾向が示唆された。
論文 参考訳(メタデータ) (2026-02-20T17:27:41Z) - From Words to Wisdom: Discourse Annotation and Baseline Models for Student Dialogue Understanding [5.459797813771498]
本研究は、知識構築とタスク生産談話を含む学生会話の注釈付き教育対話データセットを導入する。
また,学習済みの大規模言語モデル GPT-3.5 と Llama-3.1 を用いて,会話のターン毎に,これらの言論特性を自動的に予測するベースラインモデルを構築した。
実験結果から,これらの最先端モデルがこの課題に対して準最適に実行し,今後の研究の可能性を示している。
論文 参考訳(メタデータ) (2025-11-25T17:46:00Z) - Supporting Students' Reading and Cognition with AI [12.029238454394445]
私たちは124セッションのテキストをAIツールで分析し、ユーザの読書プロセスと認知的エンゲージメントを理解しました。
我々は、低レベルの認知タスクのための構造化足場を含む、将来のAI読解支援システムの設計意味について提案する。
私たちは、学生やインストラクターがAIで読書体験をカスタマイズできる適応的で人間的なループ機能を提案しています。
論文 参考訳(メタデータ) (2025-04-07T17:51:27Z) - Exploring Knowledge Tracing in Tutor-Student Dialogues using LLMs [49.18567856499736]
本研究では,大規模言語モデル(LLM)が対話学習を支援することができるかどうかを検討する。
我々は,学習者の知識レベルを対話全体にわたって追跡するために,ラベル付きデータに知識追跡(KT)手法を適用した。
我々は,2つの学習対話データセットの実験を行い,従来のKT手法よりも学生の反応の正しさを予測できる新しいLCM-based method LLMKTが優れていることを示す。
論文 参考訳(メタデータ) (2024-09-24T22:31:39Z) - ChEDDAR: Student-ChatGPT Dialogue in EFL Writing Education [14.524728335166703]
教育における生成的AIの統合は拡大しているが、学生とAIシステムの間の大規模な実世界の相互作用に関する実証分析は依然として限られている。
本研究は,英語の212人の大学生を対象に,外国語Langauge (EFL) 書記講座を修了した。
ChEDDARには、会話ログ、発話レベルのエッセイ編集履歴、自己評価された満足度、学生の意図に加えて、彼らの目的と全体的な経験を文書化するセッションレベルの事前調査が含まれている。
論文 参考訳(メタデータ) (2023-09-23T03:28:25Z) - CHAI: A CHatbot AI for Task-Oriented Dialogue with Offline Reinforcement
Learning [85.3987745097806]
オフライン強化学習は、人間の話者から収集された静的データセットを使用して、対話エージェントをトレーニングするために使用することができる。
実験により,最近開発されたオフラインRL手法と言語モデルを組み合わせることで,現実的な対話エージェントが得られることが示された。
論文 参考訳(メタデータ) (2022-04-18T17:43:21Z) - What is wrong with you?: Leveraging User Sentiment for Automatic Dialog
Evaluation [73.03318027164605]
本稿では,次のユーザの発話から自動的に抽出できる情報をプロキシとして利用して,前のシステム応答の質を測定することを提案する。
本モデルは,実際のユーザおよび有償ユーザから収集した音声と書面の両方のオープンドメインダイアログコーパスを一般化する。
論文 参考訳(メタデータ) (2022-03-25T22:09:52Z) - Few-Shot Bot: Prompt-Based Learning for Dialogue Systems [58.27337673451943]
ごく少数の例を使って会話を学ぶことは、会話型AIにおける大きな課題である。
現在の最良の会話モデルは、良いチャットシャッター(例:BlenderBot)またはゴール指向システム(例:MinTL)である。
グラデーションベースの微調整を必要とせず、学習の唯一の源としていくつかの例を用いるプロンプトベースの数ショット学習を提案する。
論文 参考訳(メタデータ) (2021-10-15T14:36:45Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。