論文の概要: Beyond Static Scoring: Enhancing Assessment Validity via AI-Generated Interactive Verification
- arxiv url: http://arxiv.org/abs/2512.12592v1
- Date: Sun, 14 Dec 2025 08:13:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.332286
- Title: Beyond Static Scoring: Enhancing Assessment Validity via AI-Generated Interactive Verification
- Title(参考訳): 静的スコーリングを超えて - AI生成によるインタラクティブな検証による評価の妥当性向上
- Authors: Tom Lee, Sihoon Lee, Seonghun Kim,
- Abstract要約: 大規模言語モデル(LLM)は、著者の行を曖昧にすることで、従来のオープンエンドアセスメントの妥当性に挑戦する。
本稿では,ルーリックに基づく自動スコアリングとAIが生成し,対象とするフォローアップ質問を組み合わせることで,評価の整合性を高める新しいHuman-AIコラボレーションフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.4260312058817663
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) challenge the validity of traditional open-ended assessments by blurring the lines of authorship. While recent research has focused on the accuracy of automated scoring (AES), these static approaches fail to capture process evidence or verify genuine student understanding. This paper introduces a novel Human-AI Collaboration framework that enhances assessment integrity by combining rubric-based automated scoring with AI-generated, targeted follow-up questions. In a pilot study with university instructors (N=9), we demonstrate that while Stage 1 (Auto-Scoring) ensures procedural fairness and consistency, Stage 2 (Interactive Verification) is essential for construct validity, effectively diagnosing superficial reasoning or unverified AI use. We report on the systems design, instructor perceptions of fairness versus validity, and the necessity of adaptive difficulty in follow-up questioning. The findings offer a scalable pathway for authentic assessment that moves beyond policing AI to integrating it as a synergistic partner in the evaluation process.
- Abstract(参考訳): 大規模言語モデル(LLM)は、著者の行を曖昧にすることで、従来のオープンエンドアセスメントの妥当性に挑戦する。
近年の研究では、自動スコアリング(AES)の精度に焦点が当てられているが、これらの静的アプローチは、プロセスのエビデンスを捉えたり、本物の学生の理解を検証するのに失敗している。
本稿では,ルーリックに基づく自動スコアリングとAIが生成し,対象とするフォローアップ質問を組み合わせることで,評価の整合性を高める新しいHuman-AIコラボレーションフレームワークを提案する。
大学インストラクターによるパイロットスタディ(N=9)において、段階1(Auto-Scoring)が手続き的公正性と一貫性を保証する一方で、段階2(Interactive Verification)は、表層推論や未検証AIの使用を効果的に診断するために必要であることを示した。
本稿では, システム設計, 公正度と妥当性のインストラクター認識, フォローアップ質問に対する適応困難の必要性について報告する。
この発見は、AIの監視を超えて、評価プロセスにおける相乗的パートナーとして統合する、信頼性評価のためのスケーラブルなパスを提供する。
関連論文リスト
- Designing AI-Resilient Assessments Using Interconnected Problems: A Theoretically Grounded and Empirically Validated Framework [0.0]
生成AIの急速な採用により、コンピューティング教育における従来のモジュラーアセスメントが損なわれている。
本稿では,AI-レジリエントアセスメントを設計するための理論的基盤となる枠組みを提案する。
論文 参考訳(メタデータ) (2025-12-11T15:53:19Z) - Assessment Twins: A Protocol for AI-Vulnerable Summative Assessment [0.0]
評価タスクを再設計し,妥当性を高めるためのアプローチとして,アセスメント双子を導入する。
我々は、GenAIがコンテンツ、構造、連続性、一般化可能性、外部の妥当性を脅かす方法を体系的にマッピングするために、Messickの統一妥当性フレームワークを使用します。
双子のアプローチは、補完的な形式にまたがって証拠を三角測量することで、妥当性の脅威を軽減するのに役立ちます。
論文 参考訳(メタデータ) (2025-10-03T12:05:34Z) - RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark [71.3555284685426]
本稿では,双方向機能相乗効果を評価するためのベンチマークであるRealUnifyを紹介する。
RealUnifyは、10のカテゴリと32のサブタスクにまたがる、細心の注意を払ってアノテートされた1000のインスタンスで構成されている。
現在の統一モデルは、効果的な相乗効果を達成するのに依然として苦労しており、アーキテクチャの統一だけでは不十分であることを示している。
論文 参考訳(メタデータ) (2025-09-29T15:07:28Z) - AIssistant: An Agentic Approach for Human--AI Collaborative Scientific Work on Reviews and Perspectives in Machine Learning [2.464267718050055]
ここでは、AIssistantを用いた最初の実験を、機械学習の研究論文の視点とレビューのために提示する。
本システムでは,文学,セクションワイド実験,引用管理,自動文書生成のためのモジュールツールとエージェントを統合している。
その効果にもかかわらず、幻覚的引用、動的紙構造への適応の困難、マルチモーダルコンテンツの不完全統合など、重要な制限を識別する。
論文 参考訳(メタデータ) (2025-09-14T15:50:31Z) - CoCoNUTS: Concentrating on Content while Neglecting Uninformative Textual Styles for AI-Generated Peer Review Detection [60.52240468810558]
我々は、AI生成ピアレビューの詳細なデータセットの上に構築されたコンテンツ指向ベンチマークであるCoCoNUTSを紹介する。
また、マルチタスク学習フレームワークを介してAIレビュー検出を行うCoCoDetを開発し、レビューコンテンツにおけるAIのより正確で堅牢な検出を実現する。
論文 参考訳(メタデータ) (2025-08-28T06:03:11Z) - Breaking Barriers in Software Testing: The Power of AI-Driven Automation [0.0]
本稿では、自然言語処理(NLP)、強化学習(RL)、予測モデルを用いたテストケース生成と検証を自動化するAI駆動フレームワークを提案する。
ケーススタディでは、欠陥の検出、テストの労力の削減、リリースサイクルの高速化が測定可能な向上を示している。
論文 参考訳(メタデータ) (2025-08-22T01:04:50Z) - Beyond Detection: Designing AI-Resilient Assessments with Automated Feedback Tool to Foster Critical Thinking [0.0]
本研究は, 検出ではなく, 評価設計に基づく能動的AIレジリエントソリューションを提案する。
WebベースのPythonツールで、Bloomの分類と高度な自然言語処理技術を統合する。
これは、タスクがリコールや要約のような下位の思考や、分析、評価、作成といった上位のスキルを目標にしているかどうかを教育者が判断するのに役立つ。
論文 参考訳(メタデータ) (2025-03-30T23:13:00Z) - Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。
不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。
対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文 参考訳(メタデータ) (2025-02-18T17:12:26Z) - Auto-PRE: An Automatic and Cost-Efficient Peer-Review Framework for Language Generation Evaluation [52.76508734756661]
Auto-PREはピアレビュープロセスにインスパイアされた自動評価フレームワークである。
人間のアノテーションに依存する従来のアプローチとは異なり、Auto-PREは自動的に3つのコア特性に基づいて評価子を選択する。
要約,非ファクトイドQA,対話生成を含む3つの代表的なタスクの実験は,Auto-PREが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-10-16T06:06:06Z) - Modelling Assessment Rubrics through Bayesian Networks: a Pragmatic Approach [40.06500618820166]
本稿では,学習者モデルを直接評価ルーリックから導出する手法を提案する。
本稿では,コンピュータ思考のスキルをテストするために開発された活動の人的評価を自動化するために,この手法を適用する方法について述べる。
論文 参考訳(メタデータ) (2022-09-07T10:09:12Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。