論文の概要: Auto-Evaluation: A Critical Measure in Driving Improvements in Quality and Safety of AI-Generated Lesson Resources
- arxiv url: http://arxiv.org/abs/2502.10410v1
- Date: Thu, 23 Jan 2025 11:35:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-02 04:52:16.102992
- Title: Auto-Evaluation: A Critical Measure in Driving Improvements in Quality and Safety of AI-Generated Lesson Resources
- Title(参考訳): 自己評価:AIによる授業リソースの品質と安全性の向上を推進するための重要な尺度
- Authors: Hannah-Beth Clark, Margaux Dowland, Laura Benton, Reka Budai, Ibrahim Kaan Keskin, Emma Searle, Matthew Gregory, Mark Hodierne, William Gayne, John Roberts,
- Abstract要約: オーク・ナショナル・アカデミー(Oak National Academy)は、イギリスの公共団体。
我々は,全国カリキュラム科目すべてを対象とした,約13,000のオープン教育リソース(OER)の総合カリキュラムを,専門家,人間教師が設計し,品質保証を行っている。
これにより、高品質のAIを活用した授業計画ツールであるAilaを構築するのに必要なコンテンツのコーパスが提供される。
- 参考スコア(独自算出の注目度): 2.0840194592130654
- License:
- Abstract: As a publicly funded body in the UK, Oak National Academy is in a unique position to innovate within this field as we have a comprehensive curriculum of approximately 13,000 open education resources (OER) for all National Curriculum subjects, designed and quality-assured by expert, human teachers. This has provided the corpus of content needed for building a high-quality AI-powered lesson planning tool, Aila, that is free to use and, therefore, accessible to all teachers across the country. Furthermore, using our evidence-informed curriculum principles, we have codified and exemplified each component of lesson design. To assess the quality of lessons produced by Aila at scale, we have developed an AI-powered auto-evaluation agent,facilitating informed improvements to enhance output quality. Through comparisons between human and auto-evaluations, we have begun to refine this agent further to increase its accuracy, measured by its alignment with an expert human evaluator. In this paper we present this iterative evaluation process through an illustrative case study focused on one quality benchmark - the level of challenge within multiple-choice quizzes. We also explore the contribution that this may make to similar projects and the wider sector.
- Abstract(参考訳): オーク・ナショナル・アカデミーは、英国における公的資金提供団体として、専門家、人間教師が設計し、品質を保証した全国カリキュラム科目すべてに対して、約13,000のオープン教育リソース(OER)の総合的なカリキュラムがあるため、この分野で革新するユニークな立場にある。
これにより、高品質のAIを活用した授業計画ツールであるAilaを構築するのに必要なコンテンツのコーパスが提供された。
さらに,エビデンスインフォームドカリキュラムの原則を用いて,授業設計の各構成要素を体系化し,実証した。
アイラが大規模に生み出した授業の質を評価するため,我々はAIを利用した自動評価エージェントを開発し,情報改善と出力品質の向上を実現した。
人的評価と自己評価の比較を通じて,専門家による評価装置とのアライメントによって測定された精度を高めるために,このエージェントをさらに改良し始めている。
本稿では,この反復的評価プロセスについて,複数のクオリティ・クイズにおける課題のレベルである1つの品質・ベンチマークに焦点をあてた実証的なケーススタディを通して述べる。
また、同様のプロジェクトや幅広いセクターへの貢献についても検討しています。
関連論文リスト
- What Makes a Good Story and How Can We Measure It? A Comprehensive Survey of Story Evaluation [57.550045763103334]
ストーリーを評価することは、他の世代の評価タスクよりも難しい場合があります。
まず、テキスト・トゥ・テキスト、ビジュアル・トゥ・テキスト、テキスト・トゥ・ビジュアルといった既存のストーリーテリングタスクを要約する。
本研究では,これまで開発されてきた,あるいはストーリー評価に応用可能な評価指標を整理する分類法を提案する。
論文 参考訳(メタデータ) (2024-08-26T20:35:42Z) - Could ChatGPT get an Engineering Degree? Evaluating Higher Education Vulnerability to AI Assistants [176.39275404745098]
我々は,2つのAIアシスタントであるGPT-3.5とGPT-4が適切な回答を得られるかどうかを評価する。
GPT-4は65.8%の質問を正解し、85.1%の質問に対して少なくとも1つの手順で正しい答えを出すことができる。
この結果から,AIの進歩を踏まえて,高等教育におけるプログラムレベルの評価設計の見直しが求められた。
論文 参考訳(メタデータ) (2024-08-07T12:11:49Z) - Are we making progress in unlearning? Findings from the first NeurIPS unlearning competition [70.60872754129832]
アンラーニングに関する最初のNeurIPSコンペティションは、新しいアルゴリズムの開発を刺激しようとした。
世界中から約1200チームが参加した。
トップソリューションを分析し、アンラーニングのベンチマークに関する議論を掘り下げます。
論文 参考訳(メタデータ) (2024-06-13T12:58:00Z) - Comprehensive AI Assessment Framework: Enhancing Educational Evaluation with Ethical AI Integration [0.0]
本稿では、Perkins、Furze、Roe、MacVaughによるAIA(AIAS)の進化版である包括的AIアセスメントフレームワーク(CAIAF)について述べる。
CAIAFは厳格な倫理的ガイドラインを取り入れており、教育レベルと高度なAI能力に基づいて明確に区別されている。
このフレームワークは、より良い学習結果を保証するとともに、学術的完全性を維持し、AIの責任ある利用を促進する。
論文 参考訳(メタデータ) (2024-06-07T07:18:42Z) - Towards Responsible Development of Generative AI for Education: An Evaluation-Driven Approach [25.903775277417267]
生成型AI(gen AI)の最近の進歩は、学習者全員に個人家庭教師を提供し、教師全員に指導助手を提供する新しい技術の可能性に興奮をもたらしている。
これは主に、ジェネラルAIプロンプトへの教育的直観の言葉化と、優れた評価プラクティスの欠如によるものである、と我々は主張する。
ここでは,学習者や教育者と共同で,学習科学から7つの多様な教育ベンチマークの実践的なセットに高レベルの原則を翻訳する作業について述べる。
論文 参考訳(メタデータ) (2024-05-21T19:27:59Z) - Crafting Tomorrow's Evaluations: Assessment Design Strategies in the Era of Generative AI [0.02638878351659022]
GenAIは教育に大きな影響を与え、評価設計と評価方法論を著しく破壊してきた。
主に、学術的完全性、信頼性、アクセスの公平性、評価評価方法論、フィードバックを中心に、いくつかの懸念がある。
本稿では、評価設計と評価に対処する必要がある課題と機会について論じる。
論文 参考訳(メタデータ) (2024-05-03T01:28:21Z) - Towards Verifiable Generation: A Benchmark for Knowledge-aware Language Model Attribution [48.86322922826514]
本稿では,知識認識型言語モデル属性(KaLMA)の新たな課題について述べる。
まず、属性のソースを構造化されていないテキストから知識グラフ(KG)に拡張し、そのリッチな構造は属性のパフォーマンスと作業シナリオの両方に役立ちます。
第2に,不完全な知識リポジトリを考慮した「意識的非能力」の設定を提案する。
第3に,テキスト品質,引用品質,引用アライメントを含む総合的な自動評価指標を提案する。
論文 参考訳(メタデータ) (2023-10-09T11:45:59Z) - Evaluating the Generation Capabilities of Large Chinese Language Models [27.598864484231477]
本稿では,CG-Evalについて紹介する。
学術分野にまたがる大規模な中国語モデルの生成能力を評価する。
Gscoreは、参照標準に対するモデルのテキスト生成の品質測定を自動化する。
論文 参考訳(メタデータ) (2023-08-09T09:22:56Z) - AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models [122.63704560157909]
我々は,人間中心の標準化試験の文脈で基礎モデルを評価するために設計された新しいベンチマークであるAGIEvalを紹介する。
GPT-4, ChatGPT, Text-Davinci-003 など,最先端基盤モデルの評価を行った。
GPT-4はSAT、LSAT、数学の競争で平均的な人事成績を上回り、SAT Mathテストでは95%の精度で、中国国立大学入試では92.5%の精度で合格している。
論文 参考訳(メタデータ) (2023-04-13T09:39:30Z) - Towards a Unified Multi-Dimensional Evaluator for Text Generation [101.47008809623202]
自然言語生成のための統一多次元評価器UniEvalを提案する。
我々はNLG評価をブール質問回答(QA)タスクとして再設定し、異なる質問でモデルを導くことで、複数の次元から評価するために1つの評価器を使うことができる。
3つの典型的なNLGタスクの実験では、UniEvalは既存のメトリクスよりも人間の判断と大きく相関している。
論文 参考訳(メタデータ) (2022-10-13T17:17:03Z) - Translation Quality Assessment: A Brief Survey on Manual and Automatic
Methods [9.210509295803243]
手動判定基準と自動評価指標の両方を含む、翻訳品質評価(TQA)手法のハイレベルで簡潔な調査を紹介します。
翻訳モデル研究者と品質評価研究者の両方にとって、この研究が資産になることを願っています。
論文 参考訳(メタデータ) (2021-05-05T18:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。