論文の概要: Toward LLM-Supported Automated Assessment of Critical Thinking Subskills
- arxiv url: http://arxiv.org/abs/2510.12915v1
- Date: Tue, 14 Oct 2025 18:36:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.384902
- Title: Toward LLM-Supported Automated Assessment of Critical Thinking Subskills
- Title(参考訳): 批判的思考サブスキルの自動評価に向けて
- Authors: Marisa C. Peczuh, Nischal Ashok Kumar, Ryan Baker, Blair Lehman, Danielle Eisenberg, Caitlin Mills, Keerthi Chebrolu, Sudhip Nashi, Cadence Young, Brayden Liu, Sherry Lachman, Andrew Lan,
- Abstract要約: 批判的思考の根底にある「サブスキル」の測定の可能性を検討する。
我々は,学生エッセイのコーパスのための,確立したスキル進歩と完全な人間のコーディングに基づくコーディングルーリックを開発する。
我々は、ゼロショットプロンプト、少数ショットプロンプト、教師付き微調整の3つの異なる自動スコアリングアプローチを評価した。
- 参考スコア(独自算出の注目度): 0.7768012939205664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Critical thinking represents a fundamental competency in today's education landscape. Developing critical thinking skills through timely assessment and feedback is crucial; however, there has not been extensive work in the learning analytics community on defining, measuring, and supporting critical thinking. In this paper, we investigate the feasibility of measuring core "subskills" that underlie critical thinking. We ground our work in an authentic task where students operationalize critical thinking: student-written argumentative essays. We developed a coding rubric based on an established skills progression and completed human coding for a corpus of student essays. We then evaluated three distinct approaches to automated scoring: zero-shot prompting, few-shot prompting, and supervised fine-tuning, implemented across three large language models (GPT-5, GPT-5-mini, and ModernBERT). GPT-5 with few-shot prompting achieved the strongest results and demonstrated particular strength on subskills with separable, frequent categories, while lower performance was observed for subskills that required detection of subtle distinctions or rare categories. Our results underscore critical trade-offs in automated critical thinking assessment: proprietary models offer superior reliability at higher cost, while open-source alternatives provide practical accuracy with reduced sensitivity to minority categories. Our work represents an initial step toward scalable assessment of higher-order reasoning skills across authentic educational contexts.
- Abstract(参考訳): 批判的思考は、今日の教育のランドスケープにおける基本的な能力を表している。
タイムリーな評価とフィードバックによる批判的思考スキルの育成は重要であるが、批判的思考の定義、測定、支援については、学習分析コミュニティにおいて広範な研究は行われていない。
本稿では,批判的思考の根底にある「サブスキル」の測定の可能性について検討する。
我々は、学生が批判的思考を運用する真正のタスク、すなわち学生が書いた議論的エッセイに、我々の研究を基礎づける。
我々は、確立されたスキル進歩に基づくコーディングルーリックを開発し、学生エッセイのコーパスのための人間のコーディングを完成させた。
次に、ゼロショットプロンプト、少数ショットプロンプト、教師付き微調整の3つの異なるアプローチ(GPT-5、GPT-5-mini、ModernBERT)を評価した。
GPT-5は, 微妙な区別や稀なカテゴリーの発見を必要とするサブスキルに対して, 分離可能な, 頻繁なカテゴリーのサブスキルに対して, 特定の強度を示した。
プロプライエタリなモデルは高いコストで優れた信頼性を提供する一方、オープンソースの代替手段はマイノリティなカテゴリーに対する感度を低下させる実用的な精度を提供する。
我々の研究は、真正な教育状況における高次推論スキルのスケーラブルな評価に向けた最初のステップである。
関連論文リスト
- CriticLean: Critic-Guided Reinforcement Learning for Mathematical Formalization [48.61754523492116]
CriticLeanは、新しい批評家による強化学習フレームワークである。
教師付き微調整と強化学習を通じてトレーニングされたCriticLeanGPTを導入し、Lean 4の形式化の意味的忠実さを厳格に評価する。
そして、CryticLeanBenchというベンチマークを紹介します。これは、モデルが意味論的に正しい形式を識別する能力を測定するために設計されたベンチマークです。
論文 参考訳(メタデータ) (2025-07-08T17:03:39Z) - An Automatic and Cost-Efficient Peer-Review Framework for Language Generation Evaluation [29.81362106367831]
既存の評価手法は、しばしば高いコスト、限られたテスト形式、人間の参照の必要性、体系的な評価バイアスに悩まされる。
人間のアノテーションに依存する以前の研究とは対照的に、Auto-PREはそれら固有の特性に基づいて自動的に評価者を選択する。
実験結果から,我々のAuto-PREは最先端の性能を低コストで達成できることが示された。
論文 参考訳(メタデータ) (2024-10-16T06:06:06Z) - Critic-CoT: Boosting the reasoning abilities of large language model via Chain-of-thoughts Critic [48.94340387130627]
Critic-CoTは、LLMをSystem-2のような批判能力にプッシュするフレームワークである。
人間のアノテーションを使わずにCoT推論パラダイムと遠隔スーパービジョンデータの自動構築
GSM8KとMATHの実験は、我々の強化されたモデルがタスク解決性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2024-08-29T08:02:09Z) - How critically can an AI think? A framework for evaluating the quality of thinking of generative artificial intelligence [0.9671462473115854]
大きな言語モデルを持つような生成AIは、革新的なアセスメント設計プラクティスの機会を生み出している。
本稿では,現在の業界ベンチマークである LLM ChatGPT4 アプリケーションの性能を探求するフレームワークを提案する。
この批判は、批判的思考スキルの観点から、彼らの質問の脆弱性を具体的かつターゲットに示します。
論文 参考訳(メタデータ) (2024-06-20T22:46:56Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Modelling Assessment Rubrics through Bayesian Networks: a Pragmatic Approach [40.06500618820166]
本稿では,学習者モデルを直接評価ルーリックから導出する手法を提案する。
本稿では,コンピュータ思考のスキルをテストするために開発された活動の人的評価を自動化するために,この手法を適用する方法について述べる。
論文 参考訳(メタデータ) (2022-09-07T10:09:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。