論文の概要: Reforming Physics Exams Using Openly Accessible Large Isomorphic Problem
Banks created with the assistance of Generative AI: an Explorative Study
- arxiv url: http://arxiv.org/abs/2310.14498v1
- Date: Mon, 23 Oct 2023 02:07:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 23:09:12.865396
- Title: Reforming Physics Exams Using Openly Accessible Large Isomorphic Problem
Banks created with the assistance of Generative AI: an Explorative Study
- Title(参考訳): 生成AIを活用したオープンアクセシブル大等方的問題バンクを用いた物理エクササイズの改革 : 探索的研究
- Authors: Zhongzhou Chen, Emily Frederick, Colleen Cui, Munaimah Khan,
Christopher Klatt, Mercedith Huang, Shiyang Su
- Abstract要約: 本稿では,大規模STEMクラスにおける従来の試験の課題の多くを克服するために,大規模同型問題バンクを用いて検討する。
まず,大規模言語モデル GPT-3 を援用した,多数の同型物理問題を効率的に生成する手法を提案する。
そこで我々は,試験項目が十分に大きな問題銀行からランダムに引き出された場合,試験に先立って問題銀行に開放された場合,学生の試験成績に劇的な影響を及ぼすことはないか,あるいは広く普及した解法を記憶させる結果となるかを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper explores using large isomorphic problem banks to overcome many
challenges of traditional exams in large STEM classes, especially the threat of
content sharing websites and generative AI to the security of exam items. We
first introduce an efficient procedure for creating large numbers of isomorphic
physics problems, assisted by the large language model GPT-3 and several other
open-source tools. We then propose that if exam items are randomly drawn from
large enough problem banks, then giving students open access to problem banks
prior to the exam will not dramatically impact students' performance on the
exam or lead to wide-spread rote-memorization of solutions. We tested this
hypothesis on two mid-term physics exams, comparing students' performance on
problems drawn from open isomorphic problem banks to similar transfer problems
that were not accessible to students prior to the exam. We found that on both
exams, both open bank and transfer problems had the highest difficulty. The
differences in percent correct were between 5% to 10%, which is comparable to
the differences between different isomorphic versions of the same problem type.
Item response theory analysis found that both types of problem have high
discrimination (>1.5) with no significant differences. Student performance on
open-bank and transfer problems are highly correlated with each other, and the
correlations are stronger than average correlations between problems on the
exam. Exploratory factor analysis also found that open-bank and transfer
problems load on the same factor, and even formed their own factor on the
second exam. Those observations all suggest that giving students open access to
large isomorphic problem banks only had a small impact on students' performance
on the exam but could have significant potential in reforming traditional
classroom exams.
- Abstract(参考訳): 本稿では、大規模な同型問題銀行を用いて、大規模なSTEMクラスにおける従来の試験の課題を克服し、特にコンテンツ共有サイトや生成AIが試験項目のセキュリティを脅かすことを考察する。
まず, 大規模言語モデルgpt-3 と各種オープンソースツールを用いて, 多数の同型物理問題を作成するための効率的な手順を提案する。
次に,問題バンクから試験項目がランダムに抽出された場合,試験前の問題バンクへのオープンアクセスを学生に与えることは,試験における学生の成績に劇的な影響を与えないか,あるいは幅広い解の暗記に繋がることを提案する。
この仮説を2つの中等式物理試験で検証し,開同型問題バンクから引き出された問題と,試験前の学生がアクセスできない類似の伝達問題とを比較した。
いずれの試験でも,オープンバンク問題とトランスファー問題はともに最も困難であった。
正解率の差は5%から10%であり、同じ問題型の異型版の違いに匹敵するものであった。
項目応答理論分析の結果,両問題とも高い識別率(>1.5)を示し,有意な差は認められなかった。
オープンバンクとトランスファー問題における学生の成績は相互に強く相関しており, 試験における問題の平均的相関よりも相関が強い。
探索的因子分析では、オープンバンクと転送問題は同じ要因に負担され、2回目の試験でそれぞれ独自の因子を形成していることも判明した。
これらの結果は、学生が大きな同型問題銀行に開放されることは、学生の試験成績にわずかな影響しか与えず、従来の教室試験の改革に有意義な可能性を示唆している。
関連論文リスト
- OpenAI-o1 AB Testing: Does the o1 model really do good reasoning in math problem solving? [2.851415653352522]
OpenAIによるOrion-1モデルは、以前の大規模言語モデルよりも堅牢な論理的推論能力を持つと言われている。
IMO(International Mathematics Olympiad)問題からなる2つのデータセットを用いて比較実験を行った。
モデルが問題や解の記憶に依存していることを示す重要な証拠は存在しないと結論付けている。
論文 参考訳(メタデータ) (2024-11-09T14:47:52Z) - MathGAP: Out-of-Distribution Evaluation on Problems with Arbitrarily Complex Proofs [80.96119560172224]
大規模言語モデル(LLM)は、高い精度で算術語問題を解くことができるが、訓練された言語よりも複雑な問題にどのように一般化するかは、ほとんど分かっていない。
本研究では、任意に複雑な算術証明問題に対する LLM の評価フレームワーク、MathGAP を提案する。
論文 参考訳(メタデータ) (2024-10-17T12:48:14Z) - Can Model Uncertainty Function as a Proxy for Multiple-Choice Question Item Difficulty? [12.638577140117702]
我々は、質問に答える際の弱点と見なされるような、生成的な大規模モデルの側面を活用する。
本研究では、不確実性の2つの異なる指標と実際の学生の反応分布の相関について検討する。
論文 参考訳(メタデータ) (2024-07-07T10:48:04Z) - SciFIBench: Benchmarking Large Multimodal Models for Scientific Figure Interpretation [50.061029816288936]
本稿では,SciFIBenchを科学的図形解釈ベンチマークとして紹介する。
主要なベンチマークは、12のカテゴリにまたがる2つのタスクで分割された1000個のゴールドの質問からなる。
質問はCS arXiv紙のフィギュアとキャプションから収集され、敵対的フィルタリングを用いてハードネガティブを見つけ、品質管理のための人間による検証を行う。
SciFIBench上で26のLMMを評価し、これは挑戦的なベンチマークであることが判明した。
論文 参考訳(メタデータ) (2024-05-14T17:54:17Z) - Automatic question generation for propositional logical equivalences [6.221146613622175]
そこで我々は,各学生に対して適切な質問を生成できる手法を開発し,実装する。
従来の研究では、妥当性、ユーザ定義の困難さ、パーソナライズされた問題生成を含む、教育におけるAQGフレームワークについて研究されてきた。
我々の新しいAQGアプローチは、一年生のコンピュータサイエンス学生にとってコアコースである離散数学に論理的等価性問題をもたらす。
論文 参考訳(メタデータ) (2024-05-09T02:44:42Z) - Diversifying the Mixture-of-Experts Representation for Language Models with Orthogonal Optimizer [59.43462055143123]
The Mixture of Experts (MoE)は、ディープラーニングにおいて非常に成功したテクニックとして登場した。
本研究では,MoEの専門家が多様性の専門化や欠如に失敗した同質表現問題に光を当てた。
我々は,各専門家が他の専門家に分散された部分空間への方向を更新するように促す訓練戦略を交互に提案する。
論文 参考訳(メタデータ) (2023-10-15T07:20:28Z) - SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models [70.5763210869525]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。
SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文 参考訳(メタデータ) (2023-07-20T07:01:57Z) - The Multimarginal Optimal Transport Formulation of Adversarial
Multiclass Classification [0.0]
多クラス分類における逆学習問題の幾何学的構造について述べる。
この結果の直接的な計算的意味は、バリセンタ問題とその双対、あるいはMOT問題とその双対を解くことにより、最適なロバストな分類規則を回復できるということである。
論文 参考訳(メタデータ) (2022-04-27T03:07:39Z) - ExamGAN and Twin-ExamGAN for Exam Script Generation [3.1902272671210468]
授業中の学生のスコアを望ましい分布にできる試験スクリプトをどうやって生成するかは、まだ不明である。
評価において同等の高品質なテストスクリプトをどうやって生成するかは、今のところ不明である。
本稿では,高品質な試験スクリプトを生成するためにExamGANを提案し,その後,T-ExamGANに拡張して高品質な試験スクリプトを生成する。
論文 参考訳(メタデータ) (2021-08-22T07:34:15Z) - GeoQA: A Geometric Question Answering Benchmark Towards Multimodal
Numerical Reasoning [172.36214872466707]
我々は、テキスト記述、視覚図、定理知識の包括的理解を必要とする幾何学的問題を解くことに注力する。
そこで本研究では,5,010の幾何学的問題を含む幾何学的質問応答データセットGeoQAを提案する。
論文 参考訳(メタデータ) (2021-05-30T12:34:17Z) - The Influence of Domain-Based Preprocessing on Subject-Specific
Clustering [55.41644538483948]
大学におけるオンライン教育の大部分を突然移行させることで、学者の作業負荷が増大した。
この問題に対処するひとつの方法は、トピックに応じてこれらの質問をクラスタ化することです。
本稿では,タグ付けデータセットの領域を探求し,コードの抜粋の同定と経験的結果の提供に焦点をあてる。
論文 参考訳(メタデータ) (2020-11-16T17:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。