論文の概要: Assessment Twins: A Protocol for AI-Vulnerable Summative Assessment
- arxiv url: http://arxiv.org/abs/2510.02929v1
- Date: Fri, 03 Oct 2025 12:05:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.373431
- Title: Assessment Twins: A Protocol for AI-Vulnerable Summative Assessment
- Title(参考訳): アセスメントツイン:AIに脆弱性のあるサプライズアセスメントのためのプロトコル
- Authors: Jasper Roe, Mike Perkins, Louie Giray,
- Abstract要約: 評価タスクを再設計し,妥当性を高めるためのアプローチとして,アセスメント双子を導入する。
我々は、GenAIがコンテンツ、構造、連続性、一般化可能性、外部の妥当性を脅かす方法を体系的にマッピングするために、Messickの統一妥当性フレームワークを使用します。
双子のアプローチは、補完的な形式にまたがって証拠を三角測量することで、妥当性の脅威を軽減するのに役立ちます。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generative Artificial Intelligence (GenAI) is reshaping higher education and raising pressing concerns about the integrity and validity of higher education assessment. While assessment redesign is increasingly seen as a necessity, there is a relative lack of literature detailing what such redesign may entail. In this paper, we introduce assessment twins as an accessible approach for redesigning assessment tasks to enhance validity. We use Messick's unified validity framework to systematically map the ways in which GenAI threaten content, structural, consequential, generalisability, and external validity. Following this, we define assessment twins as two deliberately linked components that address the same learning outcomes through different modes of evidence, scheduled closely together to allow for cross-verification and assurance of learning. We argue that the twin approach helps mitigate validity threats by triangulating evidence across complementary formats, such as pairing essays with oral defences, group discussions, or practical demonstrations. We highlight several advantages: preservation of established assessment formats, reduction of reliance on surveillance technologies, and flexible use across cohort sizes. To guide implementation, we propose a three-step design process: identifying vulnerabilities, aligning outcomes, selecting complementary tasks, and developing interdependent marking schemes. We also acknowledge the challenges, including resource intensity, equity concerns, and the need for empirical validation. Nonetheless, we contend that assessment twins represent a validity-focused response to GenAI that prioritises pedagogy while supporting meaningful student learning outcomes.
- Abstract(参考訳): ジェネレーティブ・人工知能(GenAI)は高等教育を改組し、高等教育評価の完全性と妥当性に対する懸念を高めている。
評価の再設計はますます必要とされているが、そのような再設計がどのような意味を持つのかを詳述する文献が比較的不足している。
本稿では,アセスメント・ツインを,アセスメント・タスクを再設計し,妥当性を高めるためのアプローチとして紹介する。
我々は、GenAIがコンテンツ、構造、連続性、一般化可能性、外部の妥当性を脅かす方法を体系的にマッピングするために、Messickの統一妥当性フレームワークを使用します。
これに続いて、評価双生児を2つの意図的連結要素として定義し、異なる形態のエビデンスを通して同じ学習結果に対処し、相互検証と学習の保証を可能にするように密接にスケジュールする。
ツインアプローチは,エッセイと口頭弁論,グループディスカッション,実践的なデモンストレーションなど,補完的な形式にまたがって証拠を三角測量することで,妥当性の脅威を軽減することができると論じる。
確立されたアセスメントフォーマットの保存、監視技術への依存の低減、コホートサイズの柔軟な使用など、いくつかの利点を強調します。
実装の指針として,脆弱性の特定,成果の整合化,相補的タスクの選択,相互依存型マーキング手法の開発という3段階の設計プロセスを提案する。
また、資源の強度、株式の懸念、実証的検証の必要性といった課題も認識しています。
いずれにせよ、評価双生児は、有意義な学習成果を支持しつつ、教育を優先するGenAIに対する正当性を重視した反応である、と我々は主張する。
関連論文リスト
- Transforming GenAI Policy to Prompting Instruction: An RCT of Scalable Prompting Interventions in a CS1 Course [8.222598094097867]
ICAPフレームワークをベースとした4つの指導条件を,テスト前,即時,遅延後,調査により有意差が認められた。
その結果,条件1から条件4まで,すべての条件が向上し,段階的に向上することが判明した。
同様の試験前スコアを持つ学生の場合, 試験直後の高等教育成績は, グループ間での直接差はみられなかったが, 最終試験直後の成績の上昇を予測できた。
論文 参考訳(メタデータ) (2026-02-17T21:40:12Z) - CASTLE: A Comprehensive Benchmark for Evaluating Student-Tailored Personalized Safety in Large Language Models [55.0103764229311]
本稿では,学生用個人安全の概念を提案し,教育理論に基づくCASTLEの構築を行う。
このベンチマークは、92,908のバイリンガルシナリオを含む15の教育安全リスクと14の学生属性をカバーしている。
論文 参考訳(メタデータ) (2026-02-05T13:13:19Z) - ChatGPT and Gemini participated in the Korean College Scholastic Ability Test -- Earth Science I [0.0]
本研究は,2025年韓国大学聴覚能力試験(CSAT)の地球科学I部門を用いて,最先端の大規模言語モデル(LLM)の多モーダルな科学的推論能力と認知的限界を分析する。
その結果,非構造入力はセグメンテーションや光学文字認識(OCR)の故障による性能低下を招いた。
AIの弱点を活用することで、教育者は真の学生能力とAIが生成する反応を区別し、評価公正性を確保することができる。
論文 参考訳(メタデータ) (2025-12-17T10:46:41Z) - Beyond Static Scoring: Enhancing Assessment Validity via AI-Generated Interactive Verification [0.4260312058817663]
大規模言語モデル(LLM)は、著者の行を曖昧にすることで、従来のオープンエンドアセスメントの妥当性に挑戦する。
本稿では,ルーリックに基づく自動スコアリングとAIが生成し,対象とするフォローアップ質問を組み合わせることで,評価の整合性を高める新しいHuman-AIコラボレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-14T08:13:53Z) - Designing AI-Resilient Assessments Using Interconnected Problems: A Theoretically Grounded and Empirically Validated Framework [0.0]
生成AIの急速な採用により、コンピューティング教育における従来のモジュラーアセスメントが損なわれている。
本稿では,AI-レジリエントアセスメントを設計するための理論的基盤となる枠組みを提案する。
論文 参考訳(メタデータ) (2025-12-11T15:53:19Z) - Debiased Dual-Invariant Defense for Adversarially Robust Person Re-Identification [52.63017280231648]
人物再識別(ReID)は、歩行者軌道追跡などの現実の多くの応用において、基本的な課題である。
Person ReIDモデルは、歩行者画像に対する知覚不能な摂動が完全に誤った予測を引き起こすような、敵の攻撃に非常に敏感である。
本稿では,2つの相からなる二重不変防衛フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-13T03:56:40Z) - Human or AI? Comparing Design Thinking Assessments by Teaching Assistants and Bots [0.38233569758620045]
本研究では,デザイン思考教育における学生ポスター評価におけるTA支援評価と比較して,AI支援評価の信頼性と精度について検討した。
その結果、インストラクターとAIによる共感点と痛み点の統計的一致は低く、視覚コミュニケーションのアライメントはわずかに高かった。
この研究は、計算効率と人間の洞察を統合するハイブリッドアセスメントモデルの必要性を強調している。
論文 参考訳(メタデータ) (2025-10-17T07:09:21Z) - Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark [69.8473923357969]
統一マルチモーダルモデルは、視覚的理解と生成を共同で行うことを目的としているが、現在のベンチマークでは、その真の統合を検査することはめったにない。
提案するUni-MMMUは、8つの推論中心領域にまたがる生成と理解の双方向の相乗効果を拡大する総合的なベンチマークである。
論文 参考訳(メタデータ) (2025-10-15T17:10:35Z) - RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark [71.3555284685426]
本稿では,双方向機能相乗効果を評価するためのベンチマークであるRealUnifyを紹介する。
RealUnifyは、10のカテゴリと32のサブタスクにまたがる、細心の注意を払ってアノテートされた1000のインスタンスで構成されている。
現在の統一モデルは、効果的な相乗効果を達成するのに依然として苦労しており、アーキテクチャの統一だけでは不十分であることを示している。
論文 参考訳(メタデータ) (2025-09-29T15:07:28Z) - Understanding Catastrophic Interference On the Identifibility of Latent Representations [67.05452287233122]
破滅的な干渉、あるいは破滅的な忘れ(Caastrophic forgetting)は、機械学習の根本的な課題である。
本稿では,破滅的干渉を識別問題として定式化する新しい理論枠組みを提案する。
我々のアプローチは、合成データセットとベンチマークデータセットの両方で理論的保証と実用的なパフォーマンスの改善を提供する。
論文 参考訳(メタデータ) (2025-09-27T00:53:32Z) - The Imitation Game for Educational AI [23.71250100390303]
本稿では,2相チューリング様試験に基づく新しい評価フレームワークを提案する。
フェーズ1では、学生は質問に対するオープンな回答を提供し、自然な誤解を明らかにします。
フェーズ2では、AIと人間の専門家の両方が、各学生の特定のミスを条件に、新しい関連する質問に気を散らす。
論文 参考訳(メタデータ) (2025-02-21T01:14:55Z) - The AI Assessment Scale Revisited: A Framework for Educational Assessment [0.0]
ジェネレーティブ・人工知能(GenAI)の最近の進歩は、教育において大きな不確実性を生み出している。
我々は、2つの基本的な目的を持ったフレームワークであるAIAS(AI Assessment Scale)の更新版を提示する。
論文 参考訳(メタデータ) (2024-12-12T07:44:52Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Distantly-Supervised Named Entity Recognition with Adaptive Teacher
Learning and Fine-grained Student Ensemble [56.705249154629264]
NERモデルの堅牢性を改善するために,自己学習型教員学生フレームワークを提案する。
本稿では,2つの教員ネットワークからなる適応型教員学習を提案する。
微粒な学生アンサンブルは、教師モデルの各フラグメントを、生徒の対応するフラグメントの時間移動平均で更新し、各モデルフラグメントのノイズに対する一貫した予測を強化する。
論文 参考訳(メタデータ) (2022-12-13T12:14:09Z) - Variational Distillation for Multi-View Learning [104.17551354374821]
我々は,多視点表現学習における2つの重要な特徴を利用するために,様々な情報ボトルネックを設計する。
厳密な理論的保証の下で,本手法は,観察とセマンティックラベルの内在的相関の把握を可能にする。
論文 参考訳(メタデータ) (2022-06-20T03:09:46Z) - Estimating and Improving Fairness with Adversarial Learning [65.99330614802388]
本研究では,深層学習に基づく医療画像解析システムにおけるバイアスの同時緩和と検出を目的としたマルチタスク・トレーニング戦略を提案する。
具体的には,バイアスに対する識別モジュールと,ベース分類モデルにおける不公平性を予測するクリティカルモジュールを追加することを提案する。
大規模で利用可能な皮膚病変データセットのフレームワークを評価します。
論文 参考訳(メタデータ) (2021-03-07T03:10:32Z) - SoK: Certified Robustness for Deep Neural Networks [13.10665264010575]
近年の研究では、ディープニューラルネットワーク(DNN)が敵の攻撃に弱いことが示されている。
本稿では,実証可能な堅牢なアプローチと関連する実践的および理論的意味を体系化する。
また、既存の堅牢性検証と異なるデータセットでのトレーニングアプローチに関する、最初の包括的なベンチマークも提供しています。
論文 参考訳(メタデータ) (2020-09-09T07:00:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。