論文の概要: VerAs: Verify then Assess STEM Lab Reports
- arxiv url: http://arxiv.org/abs/2402.05224v2
- Date: Thu, 25 Apr 2024 16:16:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 20:58:26.849716
- Title: VerAs: Verify then Assess STEM Lab Reports
- Title(参考訳): VerAs: VerifyがSTEM Labのレポートを評価
- Authors: Berk Atil, Mahsa Sheikhi Karizaki, Rebecca J. Passonneau,
- Abstract要約: 調査に基づく物理カリキュラムからの2組の大学レベルのレポートのデータセットは、分析的評価ルーリックに依存している。
各分析次元は6ポイントのスケールで評価され、学生に詳細なフィードバックを提供し、科学の書き方を改善するのに役立つ。
我々は,Open Domain Question Answering(OpenQA)アプローチに触発されて,検証モジュールと評価モジュールを分離したエンドツーエンドのニューラルネットワークを提案する。
- 参考スコア(独自算出の注目度): 2.4169078025984825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With an increasing focus in STEM education on critical thinking skills, science writing plays an ever more important role in curricula that stress inquiry skills. A recently published dataset of two sets of college level lab reports from an inquiry-based physics curriculum relies on analytic assessment rubrics that utilize multiple dimensions, specifying subject matter knowledge and general components of good explanations. Each analytic dimension is assessed on a 6-point scale, to provide detailed feedback to students that can help them improve their science writing skills. Manual assessment can be slow, and difficult to calibrate for consistency across all students in large classes. While much work exists on automated assessment of open-ended questions in STEM subjects, there has been far less work on long-form writing such as lab reports. We present an end-to-end neural architecture that has separate verifier and assessment modules, inspired by approaches to Open Domain Question Answering (OpenQA). VerAs first verifies whether a report contains any content relevant to a given rubric dimension, and if so, assesses the relevant sentences. On the lab reports, VerAs outperforms multiple baselines based on OpenQA systems or Automated Essay Scoring (AES). VerAs also performs well on an analytic rubric for middle school physics essays.
- Abstract(参考訳): 批判的思考スキルへのSTEM教育への注目が高まる中、科学の執筆は調査スキルを強調するカリキュラムにおいてさらに重要な役割を担っている。
最近発表された2組の大学レベルの研究室レポートのデータセットは、複数の次元を利用する解析的評価ルーリックに依存しており、主題の知識と良い説明の一般的な構成要素を規定している。
各分析次元は6ポイントのスケールで評価され、学生に詳細なフィードバックを提供し、科学の書き方を改善するのに役立つ。
手動のアセスメントは遅く、大きなクラスのすべての生徒の一貫性の調整が難しい。
STEMの被験者におけるオープンエンド質問の自動評価には多くの作業があるが、ラボレポートのような長文の執筆には、はるかに少ない作業がなされている。
我々は,Open Domain Question Answering (OpenQA) のアプローチに触発されて,検証モジュールと評価モジュールを分離したエンドツーエンドのニューラルネットワークを提案する。
VerAsはまず、あるレポートが与えられたルーリック次元に関連する内容を含むかどうかを検証し、もしそうであれば、関連する文を評価する。
研究室のレポートでは、VerAsはOpenQAシステムまたはAutomated Essay Scoring(AES)に基づいて複数のベースラインを上回ります。
VerAsは、中学の物理学エッセイの分析ルーブリックでもうまく機能している。
関連論文リスト
- Benchmarking Large Language Models for Conversational Question Answering in Multi-instructional Documents [61.41316121093604]
対話型質問応答(CQA)の文脈における大規模言語モデル(LLM)を評価するための新しいベンチマークであるInsCoQAを提案する。
InsCoQAは、百科事典スタイルの教育内容から派生したもので、複数の文書から手続き的ガイダンスを抽出し、解釈し、正確に要約する能力のモデルを評価する。
また,LLM支援型評価器であるInsEvalを提案する。
論文 参考訳(メタデータ) (2024-10-01T09:10:00Z) - What Makes a Good Story and How Can We Measure It? A Comprehensive Survey of Story Evaluation [57.550045763103334]
ストーリーを評価することは、他の世代の評価タスクよりも難しい場合があります。
まず、テキスト・トゥ・テキスト、ビジュアル・トゥ・テキスト、テキスト・トゥ・ビジュアルといった既存のストーリーテリングタスクを要約する。
本研究では,これまで開発されてきた,あるいはストーリー評価に応用可能な評価指標を整理する分類法を提案する。
論文 参考訳(メタデータ) (2024-08-26T20:35:42Z) - SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers [43.18330795060871]
SPIQAは、科学研究論文の文脈内で複雑な図形や表を解釈するために設計されたデータセットである。
データセット作成には自動および手動のキュレーションを使用します。
SPIQAは270Kの質問をトレーニング、検証、3つの異なる評価分割に分割する。
論文 参考訳(メタデータ) (2024-07-12T16:37:59Z) - SyllabusQA: A Course Logistics Question Answering Dataset [45.90423821963144]
我々はSyllabusQAを紹介した。63のリアルコースシラビを持つオープンソースデータセットで、36のメジャーをカバーし、5,078のオープンエンドコース関連質問応答ペアを含む。
我々は,大規模言語モデルから検索拡張生成まで,このタスクのいくつかの強力なベースラインをベンチマークする。
従来のテキスト類似性の指標で人間に近づいたとしても、事実の正確さという点では、自動化アプローチと人間の間には大きなギャップが残っていることが分かっています。
論文 参考訳(メタデータ) (2024-03-03T03:01:14Z) - A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [58.6354685593418]
本稿では, レビューを評価するために, 記事レベル, フィールド正規化, 大規模言語モデルを用いた書誌指標を提案する。
新たに登場したAI生成の文献レビューも評価されている。
この研究は、文学レビューの現在の課題についての洞察を与え、彼らの開発に向けた今後の方向性を思い起こさせる。
論文 参考訳(メタデータ) (2024-02-20T11:28:50Z) - SceMQA: A Scientific College Entrance Level Multimodal Question
Answering Benchmark [42.91902601376494]
本稿では,SceMQAについて紹介する。SceMQAは,大学入学レベルでの科学的マルチモーダル質問応答のための新しいベンチマークである。
SceMQAは数学、物理学、化学、生物学などの中核的な科学分野に焦点を当てている。
複数選択と自由応答の混在を特徴とし、AIモデルの能力を総合的に評価する。
論文 参考訳(メタデータ) (2024-02-06T19:16:55Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z) - A Systematic Literature Review of Empiricism and Norms of Reporting in
Computing Education Research Literature [4.339510167603376]
本研究の目的は,コンピュータ教育研究(CER)文学における経験主義の報告を特徴付けることである。
2014年と2015年に5つのCER会場で427件の論文のSLRを行った。
80%以上の論文がある種の経験的評価をしていた。
論文 参考訳(メタデータ) (2021-07-02T16:37:29Z) - YAPS -- Your Open Examination System for Activating and emPowering
Students [0.0]
我々は,設計決定について議論し,YAPSのアーキテクチャを提示する。
YAPSは、ロジスティクス、コンピュータ工学、および試験のためのアルゴリズムに関する非常に多様な講義に使われてきた。
論文 参考訳(メタデータ) (2021-04-27T09:52:43Z) - Get It Scored Using AutoSAS -- An Automated System for Scoring Short
Answers [63.835172924290326]
SAS(Automatic Short Answer Scoring)への高速でスケーラブルで正確なアプローチを提示します。
SASのためのシステム、すなわちAutoSASの設計と開発を提案し、説明します。
AutoSASは最先端のパフォーマンスを示し、いくつかの質問のプロンプトで8%以上良い結果が得られる。
論文 参考訳(メタデータ) (2020-12-21T10:47:30Z) - ORB: An Open Reading Benchmark for Comprehensive Evaluation of Machine
Reading Comprehension [53.037401638264235]
我々は,7種類の読解データセットの性能を報告する評価サーバORBを提案する。
評価サーバは、モデルのトレーニング方法に制限を課さないため、トレーニングパラダイムや表現学習の探索に適したテストベッドである。
論文 参考訳(メタデータ) (2019-12-29T07:27:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。