論文の概要: Designing AI-Resilient Assessments Using Interconnected Problems: A Theoretically Grounded and Empirically Validated Framework
- arxiv url: http://arxiv.org/abs/2512.10758v1
- Date: Thu, 11 Dec 2025 15:53:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.454656
- Title: Designing AI-Resilient Assessments Using Interconnected Problems: A Theoretically Grounded and Empirically Validated Framework
- Title(参考訳): 相互接続問題を用いたAIレジリエントアセスメントの設計:理論的根拠と実証的検証フレームワーク
- Authors: Kaihua Ding,
- Abstract要約: 生成AIの急速な採用により、コンピューティング教育における従来のモジュラーアセスメントが損なわれている。
本稿では,AI-レジリエントアセスメントを設計するための理論的基盤となる枠組みを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid adoption of generative AI has undermined traditional modular assessments in computing education, creating a disconnect between academic evaluation and industry practice. This paper presents a theoretically grounded framework for designing AI-resilient assessments, supported by formal analysis and multi-year empirical validation. We make three contributions. First, we establish two theoretical results: (1) assessments composed of interconnected problems, where outputs feed into subsequent stages, are more AI-resilient than modular assessments because current language models struggle with sustained multi-step reasoning and context; and (2) semi-structured problems with deterministic success criteria provide more reliable measures of student competency than fully open-ended projects, which allow AI systems to default to familiar solution patterns. These results challenge common policy and institutional guidance that promotes open-ended assessments as the primary safeguard for academic integrity. Second, we validate these results using data from four university data science courses (N = 138). While students achieve near-perfect scores on AI-assisted modular homework, performance drops by roughly 30 percentage points on proctored exams, indicating substantial AI score inflation. Interconnected projects remain strongly correlated with modular assessments, suggesting they measure the same underlying skills while resisting AI misuse. Proctored exams show weaker alignment, implying they may assess test-taking ability rather than intended learning outcomes. Third, we translate these findings into a practical assessment design framework. The proposed approach enables educators to create assessments that promote integrative thinking, reflect real-world AI-augmented workflows, and naturally resist trivial delegation to generative AI, thereby helping restore academic integrity.
- Abstract(参考訳): 生成AIの急速な採用により、コンピューティング教育における伝統的なモジュラーアセスメントが損なわれ、学術的評価と産業的な実践の分離を生み出した。
本稿では, 形式解析と複数年の経験的検証によって支援された, AI-Resilientアセスメントを設計するための理論的基盤となる枠組みを提案する。
私たちは3つの貢献をします。
まず,次の段階に出力が供給される相互接続された問題からなるアセスメントは,現行の言語モデルが持続する多段階推論と文脈に苦しむため,モジュール型アセスメントよりもAI耐性が高いこと,(2)決定論的成功基準を持つ半構造化問題は,完全にオープン化されたプロジェクトよりも生徒の能力の信頼性の高い尺度を提供し,AIシステムが慣れ親しんだソリューションパターンをデフォルトにすることができること,の2つの理論的結果を確立する。
これらの結果は、学術的完全性の第一の保護として、オープンエンドアセスメントを促進する共通政策と制度的ガイダンスに挑戦する。
次に,4つの大学データサイエンスコース (N = 138) のデータを用いて,これらの結果を検証する。
学生は、AI支援のモジュラー宿題でほぼ完璧なスコアを得られるが、前回の試験では、パフォーマンスが約30%低下し、AIスコアの相当なインフレーションが示される。
相互接続されたプロジェクトは、モジュラーアセスメントと強く相関しており、AIの誤用に抵抗しながら、同じ基盤となるスキルを測定することを示唆している。
事前試験は、意図された学習結果よりも、テストテイク能力を評価する可能性があることを暗示して、アライメントが弱まることを示している。
第3に,これらの知見を実用的評価設計フレームワークに翻訳する。
提案したアプローチにより、教育者は統合的思考を促進し、現実のAI拡張ワークフローを反映し、生成AIへの自明な委譲に自然に抵抗し、学術的整合性を取り戻すためのアセスメントを作成することができる。
関連論文リスト
- Academics and Generative AI: Empirical and Epistemic Indicators of Policy-Practice Voids [0.0]
本研究は,組織ルールと実践的AI利用の間の空白を明らかにするために,構造化解釈フレームワークに埋め込まれた10項目の間接楕円型機器のプロトタイプを作成する。
論文 参考訳(メタデータ) (2025-11-04T06:24:47Z) - PRISM-Physics: Causal DAG-Based Process Evaluation for Physics Reasoning [57.868248683256574]
PRISM-Physicsはプロセスレベルの評価フレームワークであり、複雑な物理推論問題のベンチマークである。
解は公式の有向非巡回グラフ(DAG)として表される。
その結果,評価フレームワークは人的専門家のスコアと一致していることがわかった。
論文 参考訳(メタデータ) (2025-10-03T17:09:03Z) - RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark [71.3555284685426]
本稿では,双方向機能相乗効果を評価するためのベンチマークであるRealUnifyを紹介する。
RealUnifyは、10のカテゴリと32のサブタスクにまたがる、細心の注意を払ってアノテートされた1000のインスタンスで構成されている。
現在の統一モデルは、効果的な相乗効果を達成するのに依然として苦労しており、アーキテクチャの統一だけでは不十分であることを示している。
論文 参考訳(メタデータ) (2025-09-29T15:07:28Z) - AI-Educational Development Loop (AI-EDL): A Conceptual Framework to Bridge AI Capabilities with Classical Educational Theories [8.500617875591633]
本研究では、古典的学習理論とAIを融合した理論駆動型フレームワークであるAI-Educational Development Loop(AI-EDL)を紹介する。
このフレームワークは透明性、自己統制型学習、教育的監視を強調している。
論文 参考訳(メタデータ) (2025-08-01T15:44:19Z) - The AI Imperative: Scaling High-Quality Peer Review in Machine Learning [49.87236114682497]
AIによるピアレビューは、緊急の研究とインフラの優先事項になるべきだ、と私たちは主張する。
我々は、事実検証の強化、レビュアーのパフォーマンスの指導、品質改善における著者の支援、意思決定におけるAC支援におけるAIの具体的な役割を提案する。
論文 参考訳(メタデータ) (2025-06-09T18:37:14Z) - Machine vs Machine: Using AI to Tackle Generative AI Threats in Assessment [0.0]
本稿では、高等教育評価において、生成人工知能(AI)がもたらす課題に対処するための理論的枠組みを提案する。
GPT-4、Claude、Llamaのような大規模な言語モデルは、洗練された学術コンテンツを作成する能力をますます示している。
調査によると、学生の74-92%が学術目的でこれらのツールを実験している。
論文 参考訳(メタデータ) (2025-05-31T22:29:43Z) - Bridging the Gap: Integrating Ethics and Environmental Sustainability in AI Research and Practice [57.94036023167952]
我々は、AIの倫理的影響を研究するための努力は、その環境への影響を評価するものと相まって行われるべきであると論じる。
我々は,AI研究と実践にAI倫理と持続可能性を統合するためのベストプラクティスを提案する。
論文 参考訳(メタデータ) (2025-04-01T13:53:11Z) - Beyond Detection: Designing AI-Resilient Assessments with Automated Feedback Tool to Foster Critical Thinking [0.0]
本研究は, 検出ではなく, 評価設計に基づく能動的AIレジリエントソリューションを提案する。
WebベースのPythonツールで、Bloomの分類と高度な自然言語処理技術を統合する。
これは、タスクがリコールや要約のような下位の思考や、分析、評価、作成といった上位のスキルを目標にしているかどうかを教育者が判断するのに役立つ。
論文 参考訳(メタデータ) (2025-03-30T23:13:00Z) - On the meaning of uncertainty for ethical AI: philosophy and practice [10.591284030838146]
これは、数学的推論に倫理的考察をもたらす重要な方法であると主張する。
我々は、2021年12月のOmicron型COVID-19の拡散について、英国政府に助言するために使用される競合モデルの文脈内でこれらのアイデアを実証する。
論文 参考訳(メタデータ) (2023-09-11T15:13:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。