Fugu-MT 論文翻訳(概要): How critically can an AI think? A framework for evaluating the quality of thinking of generative artificial intelligence

論文の概要: How critically can an AI think? A framework for evaluating the quality of thinking of generative artificial intelligence

arxiv url: http://arxiv.org/abs/2406.14769v1
Date: Thu, 20 Jun 2024 22:46:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-24 15:22:05.747932
Title: How critically can an AI think? A framework for evaluating the quality of thinking of generative artificial intelligence
Title（参考訳）: AIはいかに重要か? 生成的人工知能の思考品質を評価するためのフレームワーク
Authors: Luke Zaphir, Jason M. Lodge, Jacinta Lisec, Dom McGrath, Hassan Khosravi,
Abstract要約: 大きな言語モデルを持つような生成AIは、革新的なアセスメント設計プラクティスの機会を生み出している。本稿では,現在の業界ベンチマークである LLM ChatGPT4 アプリケーションの性能を探求するフレームワークを提案する。この批判は、批判的思考スキルの観点から、彼らの質問の脆弱性を具体的かつターゲットに示します。
参考スコア（独自算出の注目度）: 0.9671462473115854
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Generative AI such as those with large language models have created opportunities for innovative assessment design practices. Due to recent technological developments, there is a need to know the limits and capabilities of generative AI in terms of simulating cognitive skills. Assessing student critical thinking skills has been a feature of assessment for time immemorial, but the demands of digital assessment create unique challenges for equity, academic integrity and assessment authorship. Educators need a framework for determining their assessments vulnerability to generative AI to inform assessment design practices. This paper presents a framework that explores the capabilities of the LLM ChatGPT4 application, which is the current industry benchmark. This paper presents the Mapping of questions, AI vulnerability testing, Grading, Evaluation (MAGE) framework to methodically critique their assessments within their own disciplinary contexts. This critique will provide specific and targeted indications of their questions vulnerabilities in terms of the critical thinking skills. This can go on to form the basis of assessment design for their tasks.
Abstract（参考訳）: 大きな言語モデルを持つような生成AIは、革新的なアセスメント設計プラクティスの機会を生み出している。近年の技術発展により、認知能力のシミュレーションの観点から、生成AIの限界と能力を知る必要がある。学生の批判的思考スキルを評価することは、不記憶な時間に対する評価の特徴であるが、デジタルアセスメントの要求は、エクイティ、学術的完全性、評価オーサシップに固有の課題を生み出している。教育者は、アセスメント設計の実践を伝えるために、ジェネレーティブAIに対するアセスメントの脆弱性を決定するためのフレームワークが必要である。本稿では,現在の業界ベンチマークである LLM ChatGPT4 アプリケーションの性能を探求するフレームワークを提案する。本稿では,質問のマッピング,AI脆弱性テスト,グラディング,評価(MAGE)フレームワークを提案する。この批判は、批判的思考スキルの観点から、彼らの質問の脆弱性を具体的かつターゲットに示します。これにより、タスクに対するアセスメント設計の基礎を形成することができます。

関連論文リスト

The AI Imperative: Scaling High-Quality Peer Review in Machine Learning [49.87236114682497]
AIによるピアレビューは、緊急の研究とインフラの優先事項になるべきだ、と私たちは主張する。我々は、事実検証の強化、レビュアーのパフォーマンスの指導、品質改善における著者の支援、意思決定におけるAC支援におけるAIの具体的な役割を提案する。
論文参考訳（メタデータ） (2025-06-09T18:37:14Z)
Machine vs Machine: Using AI to Tackle Generative AI Threats in Assessment [0.0]
本稿では、高等教育評価において、生成人工知能(AI)がもたらす課題に対処するための理論的枠組みを提案する。 GPT-4、Claude、Llamaのような大規模な言語モデルは、洗練された学術コンテンツを作成する能力をますます示している。調査によると、学生の74-92%が学術目的でこれらのツールを実験している。
論文参考訳（メタデータ） (2025-05-31T22:29:43Z)
On the Evaluation of Engineering Artificial General Intelligence [5.802869598386355]
本稿では,工学的汎用人工知能(eAGI)エージェントを評価するための枠組みを提案する。我々はeAGIを人工知能(AGI)の専門化と考えている。 eAGIエージェントは、事実とメソッドの背景知識(リコールと検索)のユニークなブレンドを持つべきである。
論文参考訳（メタデータ） (2025-05-15T18:52:47Z)
Form-Substance Discrimination: Concept, Cognition, and Pedagogy [55.2480439325792]
本稿では,高等教育におけるカリキュラム開発に欠かせない学習成果として,フォーム・サブスタンス・差別について検討する。本稿では,カリキュラム設計,評価実践,明示的な指導を通じて,この能力を育成するための実践的戦略を提案する。
論文参考訳（メタデータ） (2025-04-01T04:15:56Z)
Beyond Detection: Designing AI-Resilient Assessments with Automated Feedback Tool to Foster Critical Thinking [0.0]
本研究は, 検出ではなく, 評価設計に基づく能動的AIレジリエントソリューションを提案する。 WebベースのPythonツールで、Bloomの分類と高度な自然言語処理技術を統合する。これは、タスクがリコールや要約のような下位の思考や、分析、評価、作成といった上位のスキルを目標にしているかどうかを教育者が判断するのに役立つ。
論文参考訳（メタデータ） (2025-03-30T23:13:00Z)
On Benchmarking Human-Like Intelligence in Machines [77.55118048492021]
現在のAI評価パラダイムは、人間のような認知能力を評価するには不十分である、と我々は主張する。人為的なラベルの欠如、人間の反応の多様性と不確実性の表現の不適切な表現、単純で生態学的に無意味なタスクへの依存。
論文参考訳（メタデータ） (2025-02-27T20:21:36Z)
Integrating Generative AI in Cybersecurity Education: Case Study Insights on Pedagogical Strategies, Critical Thinking, and Responsible AI Use [0.0]
本研究では,GenAIツールをサイバーセキュリティ教育に統合するための構造的枠組みを提案する。実装戦略は2段階のアプローチに従い、チュートリアル演習とアセスメントタスクにGenAIを組み込んだ。調査の結果,AI支援学習は,セキュリティポリシーの評価,リスク評価の精査,理論的知識の実践的応用へのブリッジといった,学生の能力を大幅に向上させた。
論文参考訳（メタデータ） (2025-02-21T10:14:07Z)
ReviewEval: An Evaluation Framework for AI-Generated Reviews [9.35023998408983]
本研究は、AI生成レビューのための総合的な評価フレームワークを紹介する。人間の評価との整合性を測定し、事実の正確性を検証し、分析的な深さを評価し、実行可能な洞察を識別する。我々のフレームワークは、AIベースのレビューシステムを評価するための標準化されたメトリクスを確立する。
論文参考訳（メタデータ） (2025-02-17T12:22:11Z)
Enabling Scalable Oversight via Self-Evolving Critic [59.861013614500024]
SCRIT(Self-evolving CRITic)は、批評能力の真の自己進化を可能にするフレームワークである。コントラストベースの自己批判によって生成される合成データのトレーニングによって自己改善する。最大で10.3%の改善が達成されている。
論文参考訳（メタデータ） (2025-01-10T05:51:52Z)
Computer Vision Intelligence Test Modeling and Generation: A Case Study on Smart OCR [3.0561992956541606]
まず、AIソフトウェアテストプロセスの重要な側面を網羅した、これまでの研究に関する包括的な文献レビューを紹介する。次に,画像に基づくテキスト抽出AI関数を体系的に評価する3次元分類モデルを提案する。提案したAIソフトウェアの品質テストの性能を評価するために,異なる側面をカバーするための4つの評価指標を提案する。
論文参考訳（メタデータ） (2024-09-14T23:33:28Z)
Good Idea or Not, Representation of LLM Could Tell [86.36317971482755]
我々は、大規模言語モデルの知識を活用し、科学的アイデアのメリットを評価することを目的としたアイデアアセスメントに焦点をあてる。我々は、このタスクに対する様々なアプローチのパフォーマンスを訓練し評価するために、細心の注意を払って設計された、フルテキストを持つ約4万の原稿からベンチマークデータセットをリリースする。その結果, 大規模言語モデルの表現は, 生成出力よりもアイデアの価値を定量化する可能性が高いことが示唆された。
論文参考訳（メタデータ） (2024-09-07T02:07:22Z)
Could ChatGPT get an Engineering Degree? Evaluating Higher Education Vulnerability to AI Assistants [175.9723801486487]
我々は,2つのAIアシスタントであるGPT-3.5とGPT-4が適切な回答を得られるかどうかを評価する。 GPT-4は65.8%の質問を正解し、85.1%の質問に対して少なくとも1つの手順で正しい答えを出すことができる。この結果から,AIの進歩を踏まえて,高等教育におけるプログラムレベルの評価設計の見直しが求められた。
論文参考訳（メタデータ） (2024-08-07T12:11:49Z)
A Conceptual Framework for Ethical Evaluation of Machine Learning Systems [12.887834116390358]
倫理的意味は、機械学習システムの評価を設計する際に現れる。本稿では,倫理的評価における重要なトレードオフを,潜在的な倫理的害に対する情報ゲインのバランスとして特徴付けるユーティリティ・フレームワークを提案する。我々の分析は、倫理的な複雑さを意図的に評価し、管理する開発チームにとって重要な必要性を浮き彫りにしている。
論文参考訳（メタデータ） (2024-08-05T01:06:49Z)
ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models [53.00812898384698]
生成型大規模言語モデル(LLM)の人間による評価は多分野にわたる作業であるべきだと論じる。認知バイアスが、流動的な情報や真理をいかに説明するか、そして、認識の不確実性が、Likertのような評価スコアの信頼性にどのように影響するかを強調します。本稿では,ConSiDERS-The-Human評価フレームワークを提案する。一貫性,スコーリング基準,差別化,ユーザエクスペリエンス,責任,スケーラビリティの6つの柱からなる。
論文参考訳（メタデータ） (2024-05-28T22:45:28Z)
CriticEval: Evaluating Large Language Model as Critic [110.29766259843453]
CriticEvalは、大規模言語モデルの批判能力を包括的かつ確実に評価するように設計された、新しいベンチマークである。包括性を確保するため、CriticalEvalは9つの異なるタスクシナリオの4次元から批判能力を評価する。信頼性を確保するため、多数の批判が注釈付けされ、参照として機能する。
論文参考訳（メタデータ） (2024-02-21T12:38:59Z)
Evaluating General-Purpose AI with Psychometrics [43.85432514910491]
本稿では,大規模言語モデルなどの汎用AIシステムの包括的かつ正確な評価の必要性について論じる。現在の評価手法は、主に特定のタスクのベンチマークに基づいており、これらの汎用AIシステムを適切に評価するには不十分である。これらの課題に対処するため,タスク指向評価から構成指向評価への移行を提案する。
論文参考訳（メタデータ） (2023-10-25T05:38:38Z)
Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
Model evaluation for extreme risks [46.53170857607407]
AI開発のさらなる進歩は、攻撃的なサイバー能力や強力な操作スキルのような極端なリスクを引き起こす能力につながる可能性がある。モデル評価が極端なリスクに対処するために重要である理由を説明します。
論文参考訳（メタデータ） (2023-05-24T16:38:43Z)
Modelling Assessment Rubrics through Bayesian Networks: a Pragmatic Approach [40.06500618820166]
本稿では,学習者モデルを直接評価ルーリックから導出する手法を提案する。本稿では,コンピュータ思考のスキルをテストするために開発された活動の人的評価を自動化するために,この手法を適用する方法について述べる。
論文参考訳（メタデータ） (2022-09-07T10:09:12Z)
An interdisciplinary conceptual study of Artificial Intelligence (AI) for helping benefit-risk assessment practices: Towards a comprehensive qualification matrix of AI programs and devices (pre-print 2020) [55.41644538483948]
本稿では,インテリジェンスの概念に対処するさまざまな分野の既存の概念を包括的に分析する。目的は、AIシステムを評価するための共有概念や相違点を特定することである。
論文参考訳（メタデータ） (2021-05-07T12:01:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。