論文の概要: ChatGPT and Gemini participated in the Korean College Scholastic Ability Test -- Earth Science I
- arxiv url: http://arxiv.org/abs/2512.15298v1
- Date: Wed, 17 Dec 2025 10:46:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.942304
- Title: ChatGPT and Gemini participated in the Korean College Scholastic Ability Test -- Earth Science I
- Title(参考訳): ChatGPT と Gemini は、韓国の大学統計能力試験、地球科学 Iに参加した。
- Authors: Seok-Hyun Ga, Chun-Yen Chang,
- Abstract要約: 本研究は,2025年韓国大学聴覚能力試験(CSAT)の地球科学I部門を用いて,最先端の大規模言語モデル(LLM)の多モーダルな科学的推論能力と認知的限界を分析する。
その結果,非構造入力はセグメンテーションや光学文字認識(OCR)の故障による性能低下を招いた。
AIの弱点を活用することで、教育者は真の学生能力とAIが生成する反応を区別し、評価公正性を確保することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid development of Generative AI is bringing innovative changes to education and assessment. As the prevalence of students utilizing AI for assignments increases, concerns regarding academic integrity and the validity of assessments are growing. This study utilizes the Earth Science I section of the 2025 Korean College Scholastic Ability Test (CSAT) to deeply analyze the multimodal scientific reasoning capabilities and cognitive limitations of state-of-the-art Large Language Models (LLMs), including GPT-4o, Gemini 2.5 Flash, and Gemini 2.5 Pro. Three experimental conditions (full-page input, individual item input, and optimized multimodal input) were designed to evaluate model performance across different data structures. Quantitative results indicated that unstructured inputs led to significant performance degradation due to segmentation and Optical Character Recognition (OCR) failures. Even under optimized conditions, models exhibited fundamental reasoning flaws. Qualitative analysis revealed that "Perception Errors" were dominant, highlighting a "Perception-Cognition Gap" where models failed to interpret symbolic meanings in schematic diagrams despite recognizing visual data. Furthermore, models demonstrated a "Calculation-Conceptualization Discrepancy," successfully performing calculations while failing to apply the underlying scientific concepts, and "Process Hallucination," where models skipped visual verification in favor of plausible but unfounded background knowledge. Addressing the challenge of unauthorized AI use in coursework, this study provides actionable cues for designing "AI-resistant questions" that target these specific cognitive vulnerabilities. By exploiting AI's weaknesses, such as the gap between perception and cognition, educators can distinguish genuine student competency from AI-generated responses, thereby ensuring assessment fairness.
- Abstract(参考訳): Generative AIの急速な開発は、教育と評価に革新的な変化をもたらしている。
課題にAIを利用する学生の頻度が高まるにつれて、学術的整合性や評価の妥当性に関する懸念が高まっている。
本研究は,2025年韓国大学聴覚能力試験(CSAT)の地球科学I部を用いて,GPT-4o,Gemini 2.5 Flash,Gemini 2.5 Proなど,最先端の大規模言語モデル(LLM)のマルチモーダルな科学的推論能力と認知的限界を深く分析する。
3つの実験条件(全ページ入力、個々の項目入力、最適化されたマルチモーダル入力)は、異なるデータ構造間のモデル性能を評価するために設計された。
その結果,非構造入力はセグメンテーションや光学文字認識(OCR)の故障による性能低下を招いた。
最適化された条件下でさえ、モデルは根本的な推論の欠陥を示した。
質的な分析により、「知覚エラー」が支配的であり、視覚的データを認識しながらも図形図の記号的意味を解釈できなかった「知覚認知ギャップ」が強調された。
さらに、モデルは"Calculation-Conceptualization Discrepancy"を示し、基礎となる科学的概念を適用しないまま計算を成功させた。
コースワークにおける不正なAI利用の課題に対処するため、この研究は、これらの特定の認知的脆弱性をターゲットにした「AI耐性質問」を設計するための実行可能な手がかりを提供する。
認識と認知のギャップのようなAIの弱点を活用することで、教育者は真の学生能力とAIが生成する反応を区別し、評価公正性を確保することができる。
関連論文リスト
- Designing AI-Resilient Assessments Using Interconnected Problems: A Theoretically Grounded and Empirically Validated Framework [0.0]
生成AIの急速な採用により、コンピューティング教育における従来のモジュラーアセスメントが損なわれている。
本稿では,AI-レジリエントアセスメントを設計するための理論的基盤となる枠組みを提案する。
論文 参考訳(メタデータ) (2025-12-11T15:53:19Z) - Assessment Twins: A Protocol for AI-Vulnerable Summative Assessment [0.0]
評価タスクを再設計し,妥当性を高めるためのアプローチとして,アセスメント双子を導入する。
我々は、GenAIがコンテンツ、構造、連続性、一般化可能性、外部の妥当性を脅かす方法を体系的にマッピングするために、Messickの統一妥当性フレームワークを使用します。
双子のアプローチは、補完的な形式にまたがって証拠を三角測量することで、妥当性の脅威を軽減するのに役立ちます。
論文 参考訳(メタデータ) (2025-10-03T12:05:34Z) - When Models Know More Than They Can Explain: Quantifying Knowledge Transfer in Human-AI Collaboration [79.69935257008467]
我々は,人間とAIの知識伝達能力に関する概念的かつ実験的フレームワークである知識統合と伝達評価(KITE)を紹介する。
最初の大規模人間実験(N=118)を行い,その測定を行った。
2段階のセットアップでは、まずAIを使って問題解決戦略を思いつき、その後独立してソリューションを実装し、モデル説明が人間の理解に与える影響を分離します。
論文 参考訳(メタデータ) (2025-06-05T20:48:16Z) - Dynamic Programming Techniques for Enhancing Cognitive Representation in Knowledge Tracing [125.75923987618977]
認知表現動的プログラミングに基づく知識追跡(CRDP-KT)モデルを提案する。
質問の難易度とそれらの間の性能間隔に基づいて認知表現を最適化する動的プログラミングアルゴリズムである。
これは、その後のモデルトレーニングのためにより正確で体系的な入力機能を提供し、それによって認知状態のシミュレーションにおける歪みを最小限にする。
論文 参考訳(メタデータ) (2025-06-03T14:44:48Z) - Distinguishing Fact from Fiction: Student Traits, Attitudes, and AI Hallucination Detection in Business School Assessment [2.3359837623080613]
本研究では,英国ビジネススクールにおいて,学術的スキル,認知的特徴,AI懐疑主義が,事実的不正確なAI生成反応(幻覚)を検出する能力にどのように影響するかを検討する。
幻覚の同定に成功したのは20%に過ぎず、強力な学業成績、解釈スキル思考、習熟度、AI懐疑主義が重要な予測因子として現れている。
論文 参考訳(メタデータ) (2025-05-28T18:39:57Z) - The Imitation Game for Educational AI [23.71250100390303]
本稿では,2相チューリング様試験に基づく新しい評価フレームワークを提案する。
フェーズ1では、学生は質問に対するオープンな回答を提供し、自然な誤解を明らかにします。
フェーズ2では、AIと人間の専門家の両方が、各学生の特定のミスを条件に、新しい関連する質問に気を散らす。
論文 参考訳(メタデータ) (2025-02-21T01:14:55Z) - Learning to Generate and Evaluate Fact-checking Explanations with Transformers [10.970249299147866]
XAI(Explainable Artificial Antelligence)の研究
我々は,人間のアクセス可能な説明を生成することによって,意思決定を文脈化し,正当化するトランスフォーマーベースの事実チェックモデルを開発した。
我々は人工知能(AI)による説明と人間の判断を一致させる必要性を強調した。
論文 参考訳(メタデータ) (2024-10-21T06:22:51Z) - Evaluation of OpenAI o1: Opportunities and Challenges of AGI [100.85218639544654]
o1-previewは目覚ましい能力を示し、しばしば人間レベルまたは優れたパフォーマンスを実現した。
このモデルは、様々な分野にわたる複雑な推論と知識の統合を必要とするタスクに優れていた。
総合的な結果は、人工知能への大きな進歩を示している。
論文 参考訳(メタデータ) (2024-09-27T06:57:00Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。