論文の概要: How critically can an AI think? A framework for evaluating the quality of thinking of generative artificial intelligence
- arxiv url: http://arxiv.org/abs/2406.14769v1
- Date: Thu, 20 Jun 2024 22:46:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 15:22:05.747932
- Title: How critically can an AI think? A framework for evaluating the quality of thinking of generative artificial intelligence
- Title(参考訳): AIはいかに重要か? 生成的人工知能の思考品質を評価するためのフレームワーク
- Authors: Luke Zaphir, Jason M. Lodge, Jacinta Lisec, Dom McGrath, Hassan Khosravi,
- Abstract要約: 大きな言語モデルを持つような生成AIは、革新的なアセスメント設計プラクティスの機会を生み出している。
本稿では,現在の業界ベンチマークである LLM ChatGPT4 アプリケーションの性能を探求するフレームワークを提案する。
この批判は、批判的思考スキルの観点から、彼らの質問の脆弱性を具体的かつターゲットに示します。
- 参考スコア(独自算出の注目度): 0.9671462473115854
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Generative AI such as those with large language models have created opportunities for innovative assessment design practices. Due to recent technological developments, there is a need to know the limits and capabilities of generative AI in terms of simulating cognitive skills. Assessing student critical thinking skills has been a feature of assessment for time immemorial, but the demands of digital assessment create unique challenges for equity, academic integrity and assessment authorship. Educators need a framework for determining their assessments vulnerability to generative AI to inform assessment design practices. This paper presents a framework that explores the capabilities of the LLM ChatGPT4 application, which is the current industry benchmark. This paper presents the Mapping of questions, AI vulnerability testing, Grading, Evaluation (MAGE) framework to methodically critique their assessments within their own disciplinary contexts. This critique will provide specific and targeted indications of their questions vulnerabilities in terms of the critical thinking skills. This can go on to form the basis of assessment design for their tasks.
- Abstract(参考訳): 大きな言語モデルを持つような生成AIは、革新的なアセスメント設計プラクティスの機会を生み出している。
近年の技術発展により、認知能力のシミュレーションの観点から、生成AIの限界と能力を知る必要がある。
学生の批判的思考スキルを評価することは、不記憶な時間に対する評価の特徴であるが、デジタルアセスメントの要求は、エクイティ、学術的完全性、評価オーサシップに固有の課題を生み出している。
教育者は、アセスメント設計の実践を伝えるために、ジェネレーティブAIに対するアセスメントの脆弱性を決定するためのフレームワークが必要である。
本稿では,現在の業界ベンチマークである LLM ChatGPT4 アプリケーションの性能を探求するフレームワークを提案する。
本稿では,質問のマッピング,AI脆弱性テスト,グラディング,評価(MAGE)フレームワークを提案する。
この批判は、批判的思考スキルの観点から、彼らの質問の脆弱性を具体的かつターゲットに示します。
これにより、タスクに対するアセスメント設計の基礎を形成することができます。
関連論文リスト
- ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models [53.00812898384698]
生成型大規模言語モデル(LLM)の人間による評価は多分野にわたる作業であるべきだと論じる。
認知バイアスが、流動的な情報や真理をいかに説明するか、そして、認識の不確実性が、Likertのような評価スコアの信頼性にどのように影響するかを強調します。
本稿では,ConSiDERS-The-Human評価フレームワークを提案する。一貫性, Scoring Critera, Differentiating, User Experience, Responsible, Scalabilityの6つの柱からなる。
論文 参考訳(メタデータ) (2024-05-28T22:45:28Z) - Crafting Tomorrow's Evaluations: Assessment Design Strategies in the Era of Generative AI [0.02638878351659022]
GenAIは教育に大きな影響を与え、評価設計と評価方法論を著しく破壊してきた。
主に、学術的完全性、信頼性、アクセスの公平性、評価評価方法論、フィードバックを中心に、いくつかの懸念がある。
本稿では、評価設計と評価に対処する必要がある課題と機会について論じる。
論文 参考訳(メタデータ) (2024-05-03T01:28:21Z) - Evaluating General-Purpose AI with Psychometrics [43.85432514910491]
本稿では,大規模言語モデルなどの汎用AIシステムの包括的かつ正確な評価の必要性について論じる。
現在の評価手法は、主に特定のタスクのベンチマークに基づいており、これらの汎用AIシステムを適切に評価するには不十分である。
これらの課題に対処するため,タスク指向評価から構成指向評価への移行を提案する。
論文 参考訳(メタデータ) (2023-10-25T05:38:38Z) - A Framework for Responsible Development of Automated Student Feedback
with Generative AI [3.0456580409182155]
生成AIの最近の進歩は、反復可能でスケーラブルで、即座に生成されたフィードバックを学生に届ける機会を提供する。
本稿では,自動フィードバックのフロンティアの概要を概説するとともに,自動フィードバックの提供に関わる倫理的問題を特定し,学術者がこのようなシステム開発に責任を負うように支援する枠組みを提案する。
論文 参考訳(メタデータ) (2023-08-29T14:29:57Z) - From Adversarial Arms Race to Model-centric Evaluation: Motivating a
Unified Automatic Robustness Evaluation Framework [91.94389491920309]
テキストの敵対攻撃は、セマンティック保存されているが、入力に誤解を招く摂動を加えることでモデルの弱点を発見することができる。
既存のロバストネス評価の実践は、包括的評価、非現実的評価プロトコル、無効な対人サンプルの問題を示す可能性がある。
我々は、敵攻撃の利点を活用するために、モデル中心の評価にシフトする統合された自動ロバストネス評価フレームワークを構築した。
論文 参考訳(メタデータ) (2023-05-29T14:55:20Z) - Model evaluation for extreme risks [46.53170857607407]
AI開発のさらなる進歩は、攻撃的なサイバー能力や強力な操作スキルのような極端なリスクを引き起こす能力につながる可能性がある。
モデル評価が極端なリスクに対処するために重要である理由を説明します。
論文 参考訳(メタデータ) (2023-05-24T16:38:43Z) - The Role of AI in Drug Discovery: Challenges, Opportunities, and
Strategies [97.5153823429076]
この分野でのAIのメリット、課題、欠点についてレビューする。
データ拡張、説明可能なAIの使用、従来の実験手法とAIの統合についても論じている。
論文 参考訳(メタデータ) (2022-12-08T23:23:39Z) - Modelling Assessment Rubrics through Bayesian Networks: a Pragmatic
Approach [59.77710485234197]
本稿では,学習者モデルを直接評価ルーリックから導出する手法を提案する。
本稿では,コンピュータ思考のスキルをテストするために開発された活動の人的評価を自動化するために,この手法を適用する方法について述べる。
論文 参考訳(メタデータ) (2022-09-07T10:09:12Z) - An interdisciplinary conceptual study of Artificial Intelligence (AI)
for helping benefit-risk assessment practices: Towards a comprehensive
qualification matrix of AI programs and devices (pre-print 2020) [55.41644538483948]
本稿では,インテリジェンスの概念に対処するさまざまな分野の既存の概念を包括的に分析する。
目的は、AIシステムを評価するための共有概念や相違点を特定することである。
論文 参考訳(メタデータ) (2021-05-07T12:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。