論文の概要: Machine vs Machine: Using AI to Tackle Generative AI Threats in Assessment
- arxiv url: http://arxiv.org/abs/2506.02046v1
- Date: Sat, 31 May 2025 22:29:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.873789
- Title: Machine vs Machine: Using AI to Tackle Generative AI Threats in Assessment
- Title(参考訳): マシン対マシン:AIを使って生成AIの脅威に対処する
- Authors: Mohammad Saleh Torkestani, Taha Mansouri,
- Abstract要約: 本稿では、高等教育評価において、生成人工知能(AI)がもたらす課題に対処するための理論的枠組みを提案する。
GPT-4、Claude、Llamaのような大規模な言語モデルは、洗練された学術コンテンツを作成する能力をますます示している。
調査によると、学生の74-92%が学術目的でこれらのツールを実験している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a theoretical framework for addressing the challenges posed by generative artificial intelligence (AI) in higher education assessment through a machine-versus-machine approach. Large language models like GPT-4, Claude, and Llama increasingly demonstrate the ability to produce sophisticated academic content, traditional assessment methods face an existential threat, with surveys indicating 74-92% of students experimenting with these tools for academic purposes. Current responses, ranging from detection software to manual assessment redesign, show significant limitations: detection tools demonstrate bias against non-native English writers and can be easily circumvented, while manual frameworks rely heavily on subjective judgment and assume static AI capabilities. This paper introduces a dual strategy paradigm combining static analysis and dynamic testing to create a comprehensive theoretical framework for assessment vulnerability evaluation. The static analysis component comprises eight theoretically justified elements: specificity and contextualization, temporal relevance, process visibility requirements, personalization elements, resource accessibility, multimodal integration, ethical reasoning requirements, and collaborative elements. Each element addresses specific limitations in generative AI capabilities, creating barriers that distinguish authentic human learning from AI-generated simulation. The dynamic testing component provides a complementary approach through simulation-based vulnerability assessment, addressing limitations in pattern-based analysis. The paper presents a theoretical framework for vulnerability scoring, including the conceptual basis for quantitative assessment, weighting frameworks, and threshold determination theory.
- Abstract(参考訳): 本稿では,機械対機械アプローチによる高等教育評価において,生成人工知能(AI)がもたらす課題に対処するための理論的枠組みを提案する。
GPT-4、Claude、Llamaといった大規模な言語モデルでは、洗練された学術コンテンツを作成する能力が強まり、従来のアセスメント手法は現実的な脅威に直面している。
検出ツールは、非ネイティブなイギリス人ライターに対する偏見を示し、容易に回避できる一方で、手動のフレームワークは主観的な判断に大きく依存し、静的なAI能力を前提としている。
本稿では、静的解析と動的テストを組み合わせた二重戦略パラダイムを導入し、脆弱性評価のための包括的な理論的枠組みを構築する。
静的分析コンポーネントは、特異性と文脈化、時間的関連性、プロセス可視性要件、パーソナライズ要素、リソースアクセシビリティ、マルチモーダル統合、倫理的推論要求、協調的要素の8つの理論的に正当化された要素から構成される。
各要素は、AI生成能力の特定の制限に対処し、AI生成シミュレーションと真正な人間の学習を区別する障壁を作成する。
動的テストコンポーネントは、シミュレーションベースの脆弱性評価を通じて補完的なアプローチを提供し、パターンベースの分析の制限に対処する。
本稿では,定量的評価,重み付け,しきい値決定理論の概念的基礎を含む,脆弱性評価のための理論的枠組みを提案する。
関連論文リスト
- Beyond Detection: Designing AI-Resilient Assessments with Automated Feedback Tool to Foster Critical Thinking [0.0]
本研究は, 検出ではなく, 評価設計に基づく能動的AIレジリエントソリューションを提案する。
WebベースのPythonツールで、Bloomの分類と高度な自然言語処理技術を統合する。
これは、タスクがリコールや要約のような下位の思考や、分析、評価、作成といった上位のスキルを目標にしているかどうかを教育者が判断するのに役立つ。
論文 参考訳(メタデータ) (2025-03-30T23:13:00Z) - Learning to Align Multi-Faceted Evaluation: A Unified and Robust Framework [61.38174427966444]
大規模言語モデル(LLM)は、様々なシナリオにおける自動評価のために、より広く使われている。
従来の研究では、強力なプロプライエタリモデルの評価と判断を再現するために、オープンソースのLLMを微調整しようと試みてきた。
本稿では,評価基準を適応的に定式化し,テキストベースとコード駆動分析の両方を合成する新しい評価フレームワークARJudgeを提案する。
論文 参考訳(メタデータ) (2025-02-26T06:31:45Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - On the Robustness of Aspect-based Sentiment Analysis: Rethinking Model,
Data, and Training [109.9218185711916]
アスペクトベースの感情分析(ABSA)は、ソーシャルメディアのテキストやレビューの背後にある製品やサービスの特定の側面に対して、特定の感情の極性を自動的に推測することを目的としている。
我々は、モデル、データ、トレーニングを含むあらゆる可能な角度からボトルネックを体系的に再考することで、ABSAの堅牢性を高めることを提案する。
論文 参考訳(メタデータ) (2023-04-19T11:07:43Z) - The Meta-Evaluation Problem in Explainable AI: Identifying Reliable
Estimators with MetaQuantus [10.135749005469686]
説明可能なAI(XAI)分野における未解決課題の1つは、説明方法の品質を最も確実に見積もる方法を決定することである。
我々は、XAIの異なる品質推定器のメタ評価を通じてこの問題に対処する。
我々の新しいフレームワークMetaQuantusは、品質推定器の2つの相補的な性能特性を解析する。
論文 参考訳(メタデータ) (2023-02-14T18:59:02Z) - An interdisciplinary conceptual study of Artificial Intelligence (AI)
for helping benefit-risk assessment practices: Towards a comprehensive
qualification matrix of AI programs and devices (pre-print 2020) [55.41644538483948]
本稿では,インテリジェンスの概念に対処するさまざまな分野の既存の概念を包括的に分析する。
目的は、AIシステムを評価するための共有概念や相違点を特定することである。
論文 参考訳(メタデータ) (2021-05-07T12:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。