論文の概要: VerAs: Verify then Assess STEM Lab Reports
- arxiv url: http://arxiv.org/abs/2402.05224v1
- Date: Wed, 7 Feb 2024 20:02:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 17:36:18.198483
- Title: VerAs: Verify then Assess STEM Lab Reports
- Title(参考訳): VerAs: VerifyがSTEM Labのレポートを評価
- Authors: Berk Atil, Mahsa Sheikhi Karizaki, Rebecca J. Passonneau
- Abstract要約: 調査に基づく物理カリキュラムからの2組の大学レベルのレポートのデータセットは、分析的評価ルーリックに依存している。
各分析次元は6ポイントのスケールで評価され、学生に詳細なフィードバックを提供し、科学の書き方を改善するのに役立つ。
我々は,Open Domain Question Answering(OpenQA)アプローチに触発されて,検証モジュールと評価モジュールを分離したエンドツーエンドのニューラルネットワークを提案する。
- 参考スコア(独自算出の注目度): 2.7163621600184777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With an increasing focus in STEM education on critical thinking skills,
science writing plays an ever more important role in curricula that stress
inquiry skills. A recently published dataset of two sets of college level lab
reports from an inquiry-based physics curriculum relies on analytic assessment
rubrics that utilize multiple dimensions, specifying subject matter knowledge
and general components of good explanations. Each analytic dimension is
assessed on a 6-point scale, to provide detailed feedback to students that can
help them improve their science writing skills. Manual assessment can be slow,
and difficult to calibrate for consistency across all students in large
classes. While much work exists on automated assessment of open-ended questions
in STEM subjects, there has been far less work on long-form writing such as lab
reports. We present an end-to-end neural architecture that has separate
verifier and assessment modules, inspired by approaches to Open Domain Question
Answering (OpenQA). VerAs first verifies whether a report contains any content
relevant to a given rubric dimension, and if so, assesses the relevant
sentences. On the lab reports, VerAs outperforms multiple baselines based on
OpenQA systems or Automated Essay Scoring (AES). VerAs also performs well on an
analytic rubric for middle school physics essays.
- Abstract(参考訳): 批判的思考スキルへのSTEM教育への注目が高まる中、科学の執筆は調査スキルを強調するカリキュラムにおいてさらに重要な役割を担っている。
最近発表された2組の大学レベルの研究室レポートのデータセットは、複数の次元を利用する解析的評価ルーリックに依存しており、主題の知識と良い説明の一般的な構成要素を規定している。
各分析次元は6ポイントスケールで評価され、学生に詳細なフィードバックを提供し、科学の書き方を改善するのに役立つ。
手動のアセスメントは遅くなり、大きなクラスのすべての生徒の一貫性の調整が困難になる。
STEMの被験者におけるオープンエンド質問の自動評価には多くの作業があるが、ラボレポートのような長文の執筆には、はるかに少ない作業がなされている。
我々は,Open Domain Question Answering (OpenQA) のアプローチに触発されて,検証モジュールと評価モジュールを分離したエンドツーエンドのニューラルネットワークを提案する。
VerAsはまず、あるレポートが与えられたルーリック次元に関連する内容を含むかどうかを検証し、もしそうであれば、関連する文を評価する。
研究室のレポートでは、VerAsはOpenQAシステムまたはAutomated Essay Scoring(AES)に基づいて複数のベースラインを上回ります。
VerAsは、中学の物理学エッセイの分析ルーブリックでもうまく機能している。
関連論文リスト
- A Literature Review of Literature Reviews in Pattern Analysis and
Machine Intelligence [62.90682521144006]
この分析は、様々な観点からPAMI分野のレビューを徹底的にレビューすることを目的としている。
書評を自動評価するために,大規模言語モデルを用いた書評指標を提案する。
新たに登場したAI生成の文献レビューも評価されている。
論文 参考訳(メタデータ) (2024-02-20T11:28:50Z) - SceMQA: A Scientific College Entrance Level Multimodal Question
Answering Benchmark [42.91902601376494]
本稿では,SceMQAについて紹介する。SceMQAは,大学入学レベルでの科学的マルチモーダル質問応答のための新しいベンチマークである。
SceMQAは数学、物理学、化学、生物学などの中核的な科学分野に焦点を当てている。
複数選択と自由応答の混在を特徴とし、AIモデルの能力を総合的に評価する。
論文 参考訳(メタデータ) (2024-02-06T19:16:55Z) - Multi-Dimensional Evaluation of Text Summarization with In-Context
Learning [79.02280189976562]
本稿では,テキスト内学習を用いた多次元評価器として,大規模言語モデルの有効性について検討する。
実験の結果,テキスト要約作業において,文脈内学習に基づく評価手法が学習評価フレームワークと競合していることが判明した。
次に、テキスト内サンプルの選択や数などの要因がパフォーマンスに与える影響を分析する。
論文 参考訳(メタデータ) (2023-06-01T23:27:49Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z) - SETSum: Summarization and Visualization of Student Evaluations of
Teaching [74.76373136325032]
学生の教育評価(SET)は、大学や大学で広く使われている。
SETSumは、インストラクターや他のレビュアーにSETの調査結果の組織化されたイラストを提供している。
論文 参考訳(メタデータ) (2022-07-08T01:40:11Z) - Automated Evaluation for Student Argumentative Writing: A Survey [2.9466390764652415]
本稿では,学生論文の自動評価という,未研究領域における研究成果の調査と整理を行う。
全体論的なエッセイ評価に焦点を当てた従来の自動筆記評価とは異なり、この分野はより具体的であり、議論的なエッセイを評価し、特定のフィードバックを提供する。
論文 参考訳(メタデータ) (2022-05-09T07:27:59Z) - What do writing features tell us about AI papers? [23.224038524126467]
学術論文の解釈可能な次元を研究することは、スケーラブルな解決につながると論じる。
我々は,文章の特徴の集合を抽出し,これらの特徴の引用数予測とAI関連論文の公開における有用性を評価するための一連の予測タスクを構築する。
論文 参考訳(メタデータ) (2021-07-13T18:12:12Z) - A Systematic Literature Review of Empiricism and Norms of Reporting in
Computing Education Research Literature [4.339510167603376]
本研究の目的は,コンピュータ教育研究(CER)文学における経験主義の報告を特徴付けることである。
2014年と2015年に5つのCER会場で427件の論文のSLRを行った。
80%以上の論文がある種の経験的評価をしていた。
論文 参考訳(メタデータ) (2021-07-02T16:37:29Z) - YAPS -- Your Open Examination System for Activating and emPowering
Students [0.0]
我々は,設計決定について議論し,YAPSのアーキテクチャを提示する。
YAPSは、ロジスティクス、コンピュータ工学、および試験のためのアルゴリズムに関する非常に多様な講義に使われてきた。
論文 参考訳(メタデータ) (2021-04-27T09:52:43Z) - Get It Scored Using AutoSAS -- An Automated System for Scoring Short
Answers [63.835172924290326]
SAS(Automatic Short Answer Scoring)への高速でスケーラブルで正確なアプローチを提示します。
SASのためのシステム、すなわちAutoSASの設計と開発を提案し、説明します。
AutoSASは最先端のパフォーマンスを示し、いくつかの質問のプロンプトで8%以上良い結果が得られる。
論文 参考訳(メタデータ) (2020-12-21T10:47:30Z) - ORB: An Open Reading Benchmark for Comprehensive Evaluation of Machine
Reading Comprehension [53.037401638264235]
我々は,7種類の読解データセットの性能を報告する評価サーバORBを提案する。
評価サーバは、モデルのトレーニング方法に制限を課さないため、トレーニングパラダイムや表現学習の探索に適したテストベッドである。
論文 参考訳(メタデータ) (2019-12-29T07:27:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。