論文の概要: Assessment Twins: A Protocol for AI-Vulnerable Summative Assessment
- arxiv url: http://arxiv.org/abs/2510.02929v1
- Date: Fri, 03 Oct 2025 12:05:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.373431
- Title: Assessment Twins: A Protocol for AI-Vulnerable Summative Assessment
- Title(参考訳): アセスメントツイン:AIに脆弱性のあるサプライズアセスメントのためのプロトコル
- Authors: Jasper Roe, Mike Perkins, Louie Giray,
- Abstract要約: 評価タスクを再設計し,妥当性を高めるためのアプローチとして,アセスメント双子を導入する。
我々は、GenAIがコンテンツ、構造、連続性、一般化可能性、外部の妥当性を脅かす方法を体系的にマッピングするために、Messickの統一妥当性フレームワークを使用します。
双子のアプローチは、補完的な形式にまたがって証拠を三角測量することで、妥当性の脅威を軽減するのに役立ちます。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generative Artificial Intelligence (GenAI) is reshaping higher education and raising pressing concerns about the integrity and validity of higher education assessment. While assessment redesign is increasingly seen as a necessity, there is a relative lack of literature detailing what such redesign may entail. In this paper, we introduce assessment twins as an accessible approach for redesigning assessment tasks to enhance validity. We use Messick's unified validity framework to systematically map the ways in which GenAI threaten content, structural, consequential, generalisability, and external validity. Following this, we define assessment twins as two deliberately linked components that address the same learning outcomes through different modes of evidence, scheduled closely together to allow for cross-verification and assurance of learning. We argue that the twin approach helps mitigate validity threats by triangulating evidence across complementary formats, such as pairing essays with oral defences, group discussions, or practical demonstrations. We highlight several advantages: preservation of established assessment formats, reduction of reliance on surveillance technologies, and flexible use across cohort sizes. To guide implementation, we propose a three-step design process: identifying vulnerabilities, aligning outcomes, selecting complementary tasks, and developing interdependent marking schemes. We also acknowledge the challenges, including resource intensity, equity concerns, and the need for empirical validation. Nonetheless, we contend that assessment twins represent a validity-focused response to GenAI that prioritises pedagogy while supporting meaningful student learning outcomes.
- Abstract(参考訳): ジェネレーティブ・人工知能(GenAI)は高等教育を改組し、高等教育評価の完全性と妥当性に対する懸念を高めている。
評価の再設計はますます必要とされているが、そのような再設計がどのような意味を持つのかを詳述する文献が比較的不足している。
本稿では,アセスメント・ツインを,アセスメント・タスクを再設計し,妥当性を高めるためのアプローチとして紹介する。
我々は、GenAIがコンテンツ、構造、連続性、一般化可能性、外部の妥当性を脅かす方法を体系的にマッピングするために、Messickの統一妥当性フレームワークを使用します。
これに続いて、評価双生児を2つの意図的連結要素として定義し、異なる形態のエビデンスを通して同じ学習結果に対処し、相互検証と学習の保証を可能にするように密接にスケジュールする。
ツインアプローチは,エッセイと口頭弁論,グループディスカッション,実践的なデモンストレーションなど,補完的な形式にまたがって証拠を三角測量することで,妥当性の脅威を軽減することができると論じる。
確立されたアセスメントフォーマットの保存、監視技術への依存の低減、コホートサイズの柔軟な使用など、いくつかの利点を強調します。
実装の指針として,脆弱性の特定,成果の整合化,相補的タスクの選択,相互依存型マーキング手法の開発という3段階の設計プロセスを提案する。
また、資源の強度、株式の懸念、実証的検証の必要性といった課題も認識しています。
いずれにせよ、評価双生児は、有意義な学習成果を支持しつつ、教育を優先するGenAIに対する正当性を重視した反応である、と我々は主張する。
関連論文リスト
- RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark [71.3555284685426]
本稿では,双方向機能相乗効果を評価するためのベンチマークであるRealUnifyを紹介する。
RealUnifyは、10のカテゴリと32のサブタスクにまたがる、細心の注意を払ってアノテートされた1000のインスタンスで構成されている。
現在の統一モデルは、効果的な相乗効果を達成するのに依然として苦労しており、アーキテクチャの統一だけでは不十分であることを示している。
論文 参考訳(メタデータ) (2025-09-29T15:07:28Z) - Understanding Catastrophic Interference On the Identifibility of Latent Representations [67.05452287233122]
破滅的な干渉、あるいは破滅的な忘れ(Caastrophic forgetting)は、機械学習の根本的な課題である。
本稿では,破滅的干渉を識別問題として定式化する新しい理論枠組みを提案する。
我々のアプローチは、合成データセットとベンチマークデータセットの両方で理論的保証と実用的なパフォーマンスの改善を提供する。
論文 参考訳(メタデータ) (2025-09-27T00:53:32Z) - The Imitation Game for Educational AI [23.71250100390303]
本稿では,2相チューリング様試験に基づく新しい評価フレームワークを提案する。
フェーズ1では、学生は質問に対するオープンな回答を提供し、自然な誤解を明らかにします。
フェーズ2では、AIと人間の専門家の両方が、各学生の特定のミスを条件に、新しい関連する質問に気を散らす。
論文 参考訳(メタデータ) (2025-02-21T01:14:55Z) - The AI Assessment Scale Revisited: A Framework for Educational Assessment [0.0]
ジェネレーティブ・人工知能(GenAI)の最近の進歩は、教育において大きな不確実性を生み出している。
我々は、2つの基本的な目的を持ったフレームワークであるAIAS(AI Assessment Scale)の更新版を提示する。
論文 参考訳(メタデータ) (2024-12-12T07:44:52Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Distantly-Supervised Named Entity Recognition with Adaptive Teacher
Learning and Fine-grained Student Ensemble [56.705249154629264]
NERモデルの堅牢性を改善するために,自己学習型教員学生フレームワークを提案する。
本稿では,2つの教員ネットワークからなる適応型教員学習を提案する。
微粒な学生アンサンブルは、教師モデルの各フラグメントを、生徒の対応するフラグメントの時間移動平均で更新し、各モデルフラグメントのノイズに対する一貫した予測を強化する。
論文 参考訳(メタデータ) (2022-12-13T12:14:09Z) - Variational Distillation for Multi-View Learning [104.17551354374821]
我々は,多視点表現学習における2つの重要な特徴を利用するために,様々な情報ボトルネックを設計する。
厳密な理論的保証の下で,本手法は,観察とセマンティックラベルの内在的相関の把握を可能にする。
論文 参考訳(メタデータ) (2022-06-20T03:09:46Z) - Estimating and Improving Fairness with Adversarial Learning [65.99330614802388]
本研究では,深層学習に基づく医療画像解析システムにおけるバイアスの同時緩和と検出を目的としたマルチタスク・トレーニング戦略を提案する。
具体的には,バイアスに対する識別モジュールと,ベース分類モデルにおける不公平性を予測するクリティカルモジュールを追加することを提案する。
大規模で利用可能な皮膚病変データセットのフレームワークを評価します。
論文 参考訳(メタデータ) (2021-03-07T03:10:32Z) - SoK: Certified Robustness for Deep Neural Networks [13.10665264010575]
近年の研究では、ディープニューラルネットワーク(DNN)が敵の攻撃に弱いことが示されている。
本稿では,実証可能な堅牢なアプローチと関連する実践的および理論的意味を体系化する。
また、既存の堅牢性検証と異なるデータセットでのトレーニングアプローチに関する、最初の包括的なベンチマークも提供しています。
論文 参考訳(メタデータ) (2020-09-09T07:00:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。