論文の概要: LLMs in the Classroom: Outcomes and Perceptions of Questions Written with the Aid of AI
- arxiv url: http://arxiv.org/abs/2503.18995v1
- Date: Sun, 23 Mar 2025 22:01:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:52:39.064603
- Title: LLMs in the Classroom: Outcomes and Perceptions of Questions Written with the Aid of AI
- Title(参考訳): 授業におけるLLM:AIを活用した質問の成果と知覚
- Authors: Gavin Witsken, Igor Crk, Eren Gultepe,
- Abstract要約: 学生はChatGPTの助けを借りて質問が書かれたかどうかを知覚できなかった。
LLMによる質問に対する学生のスコアはほぼ9%低かった。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We randomly deploy questions constructed with and without use of the LLM tool and gauge the ability of the students to correctly answer, as well as their ability to correctly perceive the difference between human-authored and LLM-authored questions. In determining whether the questions written with the aid of ChatGPT were consistent with the instructor's questions and source text, we computed representative vectors of both the human and ChatGPT questions using SBERT and compared cosine similarity to the course textbook. A non-significant Mann-Whitney U test (z = 1.018, p = .309) suggests that students were unable to perceive whether questions were written with or without the aid of ChatGPT. However, student scores on LLM-authored questions were almost 9% lower (z = 2.702, p < .01). This result may indicate that either the AI questions were more difficult or that the students were more familiar with the instructor's style of questions. Overall, the study suggests that while there is potential for using LLM tools to aid in the construction of assessments, care must be taken to ensure that the questions are fair, well-composed, and relevant to the course material.
- Abstract(参考訳): LLMツールを使用・使用せずに構築された質問をランダムに展開し、学生が正しく答える能力と、LLMと人間による質問の違いを正しく知覚する能力を評価する。
また,ChatGPTの助けを借りて書かれた質問がインストラクターの質問やソーステキストと一致しているかを判断するために,SBERTを用いて人間とChatGPTの質問の代表ベクトルを計算し,コース教科書とコサインの類似性を比較した。
非重要なMann-Whitney Uテスト(z = 1.018, p = .309)は、学生が質問がChatGPTの助けなしに書かれたかどうかを認識できないことを示唆している。
しかし、LLMによる質問に対する学生のスコアはほぼ9%低かった(z = 2.702, p < .01)。
この結果は、AI質問がより困難であったか、あるいは学生がインストラクターの質問スタイルに精通していたことが示唆される。
全体としては、LCMツールをアセスメントの構築に役立てる可能性はあるが、質問が公平で、適切に構成され、コース資料に関連があることを保証するために、注意が必要であることを示唆している。
関連論文リスト
- "Did my figure do justice to the answer?" : Towards Multimodal Short Answer Grading with Feedback (MMSAF) [36.74896284581596]
フィードバック問題を考慮したマルチモーダルショート・アンサー・グラディングと2197データポイントのデータセットを提案する。
このデータセットに対する既存のLarge Language Models (LLMs) の評価は, 精度を55%向上した。
人間の専門家によれば、ピクサールは人間の判断と生物学の価値観、物理学と化学のChatGPTにもっと順応していた。
論文 参考訳(メタデータ) (2024-12-27T17:33:39Z) - Embracing AI in Education: Understanding the Surge in Large Language Model Use by Secondary Students [53.20318273452059]
OpenAIのChatGPTのような大規模言語モデル(LLM)は、新しい教育の道を開いた。
学校制限にもかかわらず,中高生300人以上を対象に調査を行ったところ,学生の70%がLDMを利用していることがわかった。
我々は、対象特化モデル、パーソナライズドラーニング、AI教室など、このような問題に対処するいくつかのアイデアを提案する。
論文 参考訳(メタデータ) (2024-11-27T19:19:34Z) - Comparison of Large Language Models for Generating Contextually Relevant Questions [6.080820450677854]
GPT-3.5、Llama 2-Chat 13B、T5 XXLは、微調整なしで大学のスライドテキストから質問を生成する能力を比較する。
その結果, GPT-3.5 と Llama 2-Chat 13B は T5 XXL よりも小さなマージン, 特に明瞭度と質問応答アライメントで優れていた。
論文 参考訳(メタデータ) (2024-07-30T06:23:59Z) - How to Engage Your Readers? Generating Guiding Questions to Promote Active Reading [60.19226384241482]
教科書や科学論文から10Kのインテキスト質問のデータセットであるGuidingQを紹介した。
言語モデルを用いてこのような質問を生成するための様々なアプローチを探索する。
我々は、そのような質問が読解に与える影響を理解するために、人間の研究を行う。
論文 参考訳(メタデータ) (2024-07-19T13:42:56Z) - Crafting Interpretable Embeddings by Asking LLMs Questions [89.49960984640363]
大規模言語モデル(LLM)は、自然言語処理タスクの増大に対して、テキスト埋め込みを急速に改善した。
質問応答埋め込み (QA-Emb) を導入し, 各特徴がLLMに対して質問された質問に対する回答を表す。
我々はQA-Embを用いて、言語刺激に対するfMRIボクセル応答を予測するための解釈可能なモデルを柔軟に生成する。
論文 参考訳(メタデータ) (2024-05-26T22:30:29Z) - Which questions should I answer? Salience Prediction of Inquisitive Questions [118.097974193544]
非常に健全な質問は、同じ記事で経験的に答えられる可能性が高いことを示す。
質問に対する回答が,ニュースの要約品質の指標であることを示すことで,我々の知見をさらに検証する。
論文 参考訳(メタデータ) (2024-04-16T21:33:05Z) - Can AI Assistants Know What They Don't Know? [79.6178700946602]
AIアシスタントが知らない質問に答えることを拒否したことは、幻覚を減らし、アシスタントを真実にする重要な方法である。
モデル固有の"Idk"データセット(Idk)を構築し、その既知の未知の質問を含む。
Idkデータセットに合わせると、アシスタントは未知の質問のほとんどに答えることを拒否した。
論文 参考訳(メタデータ) (2024-01-24T07:34:55Z) - Three Questions Concerning the Use of Large Language Models to
Facilitate Mathematics Learning [4.376598435975689]
本稿では,学生の数学的問題解決能力を高めるために,大規模言語モデルを採用する際の課題について論じる。
LLMは間違った推論プロセスを生成することができ、また、学生の回答を正そうとするときに与えられた質問の理性を理解するのに困難を示す。
論文 参考訳(メタデータ) (2023-10-20T16:05:35Z) - Automatic Generation of Socratic Subquestions for Teaching Math Word
Problems [16.97827669744673]
本稿では,大言語モデル (LM) が数学用語の問題解決を導くためのシーケンシャルな質問を生成する能力について検討する。
自動品質評価と人的品質評価の両方において,所望の質問特性に制約されたLMが優れた質問を生成することがわかった。
その結果,課題の難易度は,質問が人間のパフォーマンスを損なうか否かを判断する上で重要な役割を担っていることが示唆された。
論文 参考訳(メタデータ) (2022-11-23T10:40:22Z) - A Dataset of Information-Seeking Questions and Answers Anchored in
Research Papers [66.11048565324468]
1,585の自然言語処理論文に関する5,049の質問のデータセットを提示する。
各質問は、対応する論文のタイトルと要約のみを読むNLP実践者によって書かれ、質問は全文に存在する情報を求めます。
他のQAタスクでうまく機能する既存のモデルは、これらの質問に答える上ではうまく機能せず、論文全体から回答する際には、少なくとも27 F1ポイントパフォーマンスが低下します。
論文 参考訳(メタデータ) (2021-05-07T00:12:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。