論文の概要: Can Consumer Chatbots Reason? A Student-Led Field Experiment Embedded in an "AI-for-All" Undergraduate Course
- arxiv url: http://arxiv.org/abs/2601.04225v1
- Date: Sun, 28 Dec 2025 22:51:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-11 18:48:17.633371
- Title: Can Consumer Chatbots Reason? A Student-Led Field Experiment Embedded in an "AI-for-All" Undergraduate Course
- Title(参考訳): 消費者チャットボットは理にかなっているか?-「AI-for-All」に埋め込まれた学生主導のフィールド実験
- Authors: Amarda Shehu, Adonyas Ababu, Asma Akbary, Griffin Allen, Aroush Baig, Tereana Battle, Elias Beall, Christopher Byrom, Matt Dean, Kate Demarco, Ethan Douglass, Luis Granados, Layla Hantush, Andy Hay, Eleanor Hay, Caleb Jackson, Jaewon Jang, Carter Jones, Quanyang Li, Adrian Lopez, Logan Massimo, Garrett McMullin, Ariana Mendoza Maldonado, Eman Mirza, Hadiya Muddasar, Sara Nuwayhid, Brandon Pak, Ashley Petty, Dryden Rancourt, Lily Rodriguez, Corbin Rogers, Jacob Schiek, Taeseo Seok, Aarav Sethi, Giovanni Vitela, Winston Williams, Jagan Yetukuri,
- Abstract要約: 本稿では,ジョージ・メイソン大学のUNIV 182(AI4All)の中間プロジェクトとして,学生主導のフィールド実験を行った。
学生は、独自の推論タスクを設計し、現在使われている消費者チャットボット上で実行し、(i)回答の正しさと(ii)推論の有効性を評価した。
OpenAI GPT-5 と Claude 4.5 は最高平均解答精度 (86.2% と 83.8%) を獲得し、Grok 4 (82.5%) と Perplexity (73.1%) が続いた。
- 参考スコア(独自算出の注目度): 0.7515394929245942
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Claims about whether large language model (LLM) chatbots "reason" are typically debated using curated benchmarks and laboratory-style evaluation protocols. This paper offers a complementary perspective: a student-led field experiment embedded as a midterm project in UNIV 182 (AI4All) at George Mason University, a Mason Core course designed for undergraduates across disciplines with no expected prior STEM exposure. Student teams designed their own reasoning tasks, ran them on widely used consumer chatbots representative of current capabilities, and evaluated both (i) answer correctness and (ii) the validity of the chatbot's stated reasoning (for example, cases where an answer is correct but the explanation is not, or vice versa). Across eight teams that reported standardized scores, students contributed 80 original reasoning prompts spanning six categories: pattern completion, transformation rules, spatial/visual reasoning, quantitative reasoning, relational/logic reasoning, and analogical reasoning. These prompts yielded 320 model responses plus follow-up explanations. Aggregating team-level results, OpenAI GPT-5 and Claude 4.5 achieved the highest mean answer accuracy (86.2% and 83.8%), followed by Grok 4 (82.5%) and Perplexity (73.1%); explanation validity showed a similar ordering (81.2%, 80.0%, 77.5%, 66.2%). Qualitatively, teams converged on a consistent error signature: strong performance on short, structured math and pattern items but reduced reliability on spatial/visual reasoning and multi-step transformations, with frequent "sound right but reason wrong" explanations. The assignment's primary contribution is pedagogical: it operationalizes AI literacy as experimental practice (prompt design, measurement, rater disagreement, and interpretability/grounding) while producing a reusable, student-generated corpus of reasoning probes grounded in authentic end-user interaction.
- Abstract(参考訳): 大規模言語モデル(LLM)のチャットボットが一般的に、キュレートされたベンチマークと実験室スタイルの評価プロトコルを用いて議論されているかどうかについて主張する。
ジョージ・メイソン大学(英語版)のUNIV 182(AI4All)の中間プロジェクトとして、学生主導のフィールド実験が組み込まれている。
学生チームは独自の推論タスクを設計し、現在使われている消費者チャットボット上で実行し、両方の能力を評価した。
(i)正解と正解
二 チャットボットの主張する推論の妥当性(例えば、答えが正しいが説明が正しい場合、またはその逆の場合)
標準化されたスコアを報告した8つのチームの中で、学生はパターン補完、変換規則、空間的・視覚的推論、量的推論、関係的・論理的推論、アナログ的推論の6つのカテゴリにまたがる80の独自の推論プロンプトを提供した。
これらのプロンプトは、320のモデル応答と後続の説明を得た。
チームレベルの結果の集計では、OpenAI GPT-5とClaude 4.5が86.2%、83.8%、Grok 4が82.5%、Perplexityが73.1%、同様の順序(81.2%、80.0%、77.5%、66.2%)を達成した。
チームは一貫したエラーシグネチャ – 短く構造化された数学とパターンアイテムの強いパフォーマンス – に収束したが、空間的/視覚的推論とマルチステップ変換の信頼性は低下し、しばしば"正しいが理にかなっている"説明が得られた。
課題の主な貢献は教育的であり、AIリテラシーを実験的な実践(プロンプト設計、測定、レーダの不一致、解釈可能性/接地)として運用し、真正なエンドユーザーインタラクションに根ざした、学生が生成した推論プローブのコーパスを生産する。
関連論文リスト
- CRAwDAD: Causal Reasoning Augmentation with Dual-Agent Debate [3.2852123901391077]
我々は因果推論のための二重エージェント議論フレームワークを開発する。
エージェントは互いに説得し合い、互いの論理に挑戦します。
我々は、強力なモデルが依然として弱いエージェントとの議論から大きな恩恵を受けることを示している。
論文 参考訳(メタデータ) (2025-11-28T03:19:35Z) - Learning to Make MISTAKEs: Modeling Incorrect Student Thinking And Key Errors [58.65143578052761]
本稿では,推論誤りの高品質な合成例を構成する新しい手法であるMISTAKEを提案する。
3つの教育課題において,MISTAKEを評価した結果,(1)誤答のシミュレーションにおいて高い精度が得られた。
論文 参考訳(メタデータ) (2025-10-13T15:10:38Z) - Thinking Before You Speak: A Proactive Test-time Scaling Approach [54.8205006555199]
emphThinking Before You Speak (TBYS)という名前の推論フレームワークとして、私たちのアイデアを実装しています。
インテリジェンス生成のためのコンテキスト内サンプルを自動的に収集・フィルタリングするパイプラインを設計する。
挑戦的な数学的データセットの実験は、TBYSの有効性を検証する。
論文 参考訳(メタデータ) (2025-08-26T03:43:32Z) - Understanding LLM Scientific Reasoning through Promptings and Model's Explanation on the Answers [8.936182649298766]
大規模言語モデル(LLM)は、自然言語理解、推論、問題解決において顕著な能力を示した。
本稿では,現代LLMの推理能力について検討し,その強度,限界,改善の可能性について分析する。
論文 参考訳(メタデータ) (2025-05-02T16:16:17Z) - A Pilot Evaluation of ChatGPT and DALL-E 2 on Decision Making and
Spatial Reasoning [8.185725740857594]
最近リリースされた2つの生成トランスモデルChatGPTとDALL-E 2の評価を行った。
DALL-E2は、各空間推論プロンプトに対して少なくとも1つの正しい画像を生成することができるが、ほとんどの画像は誤りである。
古典的なフォン・ノイマン=モーゲンステルン効用定理の下で開発された公理上のChatGPTを評価する際、ある種の合理的な決定のレベルを示すが、その決定の多くは少なくとも1つの公理に反する。
論文 参考訳(メタデータ) (2023-02-15T05:04:49Z) - Lila: A Unified Benchmark for Mathematical Reasoning [59.97570380432861]
LILAは、23の多様なタスクと4次元からなる統一的な数学的推論ベンチマークである。
我々は,Pythonプログラムの形式でタスク命令とソリューションを収集することにより,20のデータセットベンチマークを拡張してベンチマークを構築した。
LILAで訓練された汎用数学的推論モデルであるBHASKARAを紹介する。
論文 参考訳(メタデータ) (2022-10-31T17:41:26Z) - Making Large Language Models Better Reasoners with Step-Aware Verifier [49.16750018427259]
DIVERSE(Diverse Verifier on Reasoning Step)は、言語モデルの推論能力をさらに強化する新しいアプローチである。
最新の言語モデルであるcode-davinci 上で DIVERSE を評価し,8つの推論ベンチマークのうち6つで新たな最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-06T03:38:36Z) - PRover: Proof Generation for Interpretable Reasoning over Rules [81.40404921232192]
本稿では,ルールベース上の二項質問に応答し,対応する証明を生成するトランスフォーマーモデルを提案する。
本モデルは,効率的な制約付き学習パラダイムを用いて,証明グラフに対応するノードやエッジを予測できることを学習する。
我々は、QAと証明生成のための有望な結果を示すために、合成、手書き、人文による規則ベースの実験を行う。
論文 参考訳(メタデータ) (2020-10-06T15:47:53Z) - CS-NLP team at SemEval-2020 Task 4: Evaluation of State-of-the-art NLP
Deep Learning Architectures on Commonsense Reasoning Task [3.058685580689605]
本稿では,SemEval-2020 Task 4 competition: Commonsense Validation and Explanation (ComVE) Challengeについて述べる。
本システムは、3つの異なる自然言語推論サブタスクに対して手動でキュレートされたラベル付きテキストデータセットを使用する。
第2のサブタスクでは、声明が意味をなさない理由を選択するため、27人の参加者のうち、最初の6チーム(93.7%)で非常に競争力のある結果が得られます。
論文 参考訳(メタデータ) (2020-05-17T13:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。