論文の概要: Large Language Models as Students Who Think Aloud: Overly Coherent, Verbose, and Confident
- arxiv url: http://arxiv.org/abs/2602.01015v1
- Date: Sun, 01 Feb 2026 04:46:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.530744
- Title: Large Language Models as Students Who Think Aloud: Overly Coherent, Verbose, and Confident
- Title(参考訳): 音声を聴く学生としての大規模言語モデル - 過度にコヒーレント, ヴェルボース, 信頼-
- Authors: Conrad Borchers, Jill-Jênn Vie, Roger Azevedo,
- Abstract要約: 大規模言語モデル(LLM)は、AIベースの学習システムにますます組み込まれている。彼らは、初心者の推論とメタ認知的判断を忠実にモデル化できるだろうか?
学生のヒント使用,試行,問題文脈の問題解決ログを用いた化学チュータリング問題からの630のシンクアラウド発話を用いて,LSMを初心者として評価した。
そこで本研究では,LLM生成推論と人間の学習者発話を,最小限で拡張された文脈的プロンプトで比較し,ステップレベルの学習者成功を予測するモデルの能力を評価する。
- 参考スコア(独自算出の注目度): 0.8564319625930894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly embedded in AI-based tutoring systems. Can they faithfully model novice reasoning and metacognitive judgments? Existing evaluations emphasize problem-solving accuracy, overlooking the fragmented and imperfect reasoning that characterizes human learning. We evaluate LLMs as novices using 630 think-aloud utterances from multi-step chemistry tutoring problems with problem-solving logs of student hint use, attempts, and problem context. We compare LLM-generated reasoning to human learner utterances under minimal and extended contextual prompting, and assess the models' ability to predict step-level learner success. Although GPT-4.1 generates fluent and contextually appropriate continuations, its reasoning is systematically over-coherent, verbose, and less variable than human think-alouds. These effects intensify with a richer problem-solving context during prompting. Learner performance was consistently overestimated. These findings highlight epistemic limitations of simulating learning with LLMs. We attribute these limitations to LLM training data, including expert-like solutions devoid of expressions of affect and working memory constraints during problem solving. Our evaluation framework can guide future design of adaptive systems that more faithfully support novice learning and self-regulation using generative artificial intelligence.
- Abstract(参考訳): 大規模言語モデル(LLM)は、AIベースの学習システムにますます組み込まれている。
彼らは初歩的推論とメタ認知的判断を忠実にモデル化できるのか?
既存の評価は、人間の学習を特徴づける断片的で不完全な推論を見渡すことで、問題解決の正確さを強調している。
学生のヒント使用,試行,問題文脈の問題解決ログを用いた多段階化学チュータリング問題からの630のシンクアラウド発話を用いて,LSMを初心者として評価する。
そこで本研究では,LLM生成推論と人間の学習者発話を,最小限で拡張された文脈的プロンプトで比較し,ステップレベルの学習者成功を予測するモデルの能力を評価する。
GPT-4.1は、流動的で文脈的に適切な継続を生成するが、その推論は体系的に過剰に協調し、冗長であり、人間の思考アロイドよりも変化が少ない。
これらの効果は、プロンプト中によりリッチな問題解決コンテキストで強化される。
学習者のパフォーマンスは一貫して過大評価された。
これらの知見は,LLMを用いた学習を模擬することによるてんかんの限界を浮き彫りにした。
これらの制限は、問題解決時の影響の表現やワーキングメモリ制約のない専門家のようなソリューションを含む、LLMトレーニングデータに起因している。
我々の評価フレームワークは、生成人工知能を用いた初級学習と自己統制をより忠実に支援する適応システムの将来の設計を導くことができる。
関連論文リスト
- TextGames: Learning to Self-Play Text-Based Puzzle Games via Language Model Reasoning [26.680686158061192]
推論は大規模言語モデル(LLM)の基本機能である
本稿では,テキストベースのゲームで LLM を評価するためのベンチマークである TextGames を紹介する。
以上の結果から,LSMは最も容易かつ中程度の問題に対処する能力を示すが,より困難な課題に直面することが明らかとなった。
論文 参考訳(メタデータ) (2025-02-25T18:26:48Z) - Large Language Models and Mathematical Reasoning Failures [1.6114012813668932]
本稿では,50の高校レベルの単語問題を用いた大規模言語モデル(LLM)の数学的推論能力について検討する。
最終回答と解決手順の両方を厳格に分析して、推論の失敗を特定します。
より新しいモデル(例えば、o3-mini、deepseek-r1)はより精度が高いが、全てのモデルは空間的推論、戦略的計画、算術における誤りを示す。
論文 参考訳(メタデータ) (2025-02-17T09:07:32Z) - Multi-Step Reasoning with Large Language Models, a Survey [8.647697652065718]
本稿では,大規模言語モデル(LLM)を用いた多段階推論の分野を概観する。
本稿では,多段階推論の生成,評価,制御の異なる方法を特定する分類法を提案する。
論理学、ゲーム、ロボット工学の課題を解くのに成功している。
論文 参考訳(メタデータ) (2024-07-16T08:49:35Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Do Language Models Exhibit the Same Cognitive Biases in Problem Solving as Human Learners? [140.9751389452011]
本研究では,大言語モデル(LLM)の偏りを,算術語問題を解く際に,子どもに知られているものと関連づけて検討する。
我々は,これらの各テストに対して,問題特徴のきめ細かい制御を可能にするニューロシンボリックアプローチを用いて,新しい単語問題を生成する。
論文 参考訳(メタデータ) (2024-01-31T18:48:20Z) - Democratizing Reasoning Ability: Tailored Learning from Large Language
Model [97.4921006089966]
そこで我々は,そのような推論能力をより小さなLMに蒸留する,適切な学習手法を提案する。
対話型多ラウンド学習パラダイムを構築することにより,理科教員としてのLLMの可能性を活用する。
より小さなLMの推論可能性を活用するために,学生が自作ミスから学習する動機付けを目的とした自己回帰学習を提案する。
論文 参考訳(メタデータ) (2023-10-20T07:50:10Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Spoken Language Intelligence of Large Language Models for Language Learning [3.1964044595140217]
教育分野における大規模言語モデル(LLM)の有効性を評価することに注力する。
上記のシナリオにおけるLLMの有効性を評価するために,新しい複数選択質問データセットを提案する。
また,ゼロショット法や少数ショット法など,様々なプロンプト技術の影響についても検討する。
異なる大きさのモデルは、音韻学、音韻学、第二言語習得の概念をよく理解しているが、実世界の問題に対する推論には限界がある。
論文 参考訳(メタデータ) (2023-08-28T12:47:41Z) - Evaluating Language Models for Mathematics through Interactions [116.67206980096513]
大型言語モデル(LLM)と対話し,評価するためのプロトタイププラットフォームであるCheckMateを紹介した。
我々はCheckMateと共同で3つの言語モデル(InstructGPT, ChatGPT, GPT-4)を、学部レベルの数学の証明支援として評価する研究を行った。
我々は、人間の行動の分類を導き、概して肯定的な相関にもかかわらず、正しさと知覚的有用性の間に顕著な相違点があることを明らかにする。
論文 参考訳(メタデータ) (2023-06-02T17:12:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。