Fugu-MT 論文翻訳(概要): Reforming Physics Exams Using Openly Accessible Large Isomorphic Problem Banks created with the assistance of Generative AI: an Explorative Study

論文の概要: Reforming Physics Exams Using Openly Accessible Large Isomorphic Problem Banks created with the assistance of Generative AI: an Explorative Study

arxiv url: http://arxiv.org/abs/2310.14498v1
Date: Mon, 23 Oct 2023 02:07:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-24 23:09:12.865396
Title: Reforming Physics Exams Using Openly Accessible Large Isomorphic Problem Banks created with the assistance of Generative AI: an Explorative Study
Title（参考訳）: 生成AIを活用したオープンアクセシブル大等方的問題バンクを用いた物理エクササイズの改革 : 探索的研究
Authors: Zhongzhou Chen, Emily Frederick, Colleen Cui, Munaimah Khan, Christopher Klatt, Mercedith Huang, Shiyang Su
Abstract要約: 本稿では,大規模STEMクラスにおける従来の試験の課題の多くを克服するために,大規模同型問題バンクを用いて検討する。まず,大規模言語モデル GPT-3 を援用した,多数の同型物理問題を効率的に生成する手法を提案する。そこで我々は,試験項目が十分に大きな問題銀行からランダムに引き出された場合,試験に先立って問題銀行に開放された場合,学生の試験成績に劇的な影響を及ぼすことはないか,あるいは広く普及した解法を記憶させる結果となるかを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: This paper explores using large isomorphic problem banks to overcome many challenges of traditional exams in large STEM classes, especially the threat of content sharing websites and generative AI to the security of exam items. We first introduce an efficient procedure for creating large numbers of isomorphic physics problems, assisted by the large language model GPT-3 and several other open-source tools. We then propose that if exam items are randomly drawn from large enough problem banks, then giving students open access to problem banks prior to the exam will not dramatically impact students' performance on the exam or lead to wide-spread rote-memorization of solutions. We tested this hypothesis on two mid-term physics exams, comparing students' performance on problems drawn from open isomorphic problem banks to similar transfer problems that were not accessible to students prior to the exam. We found that on both exams, both open bank and transfer problems had the highest difficulty. The differences in percent correct were between 5% to 10%, which is comparable to the differences between different isomorphic versions of the same problem type. Item response theory analysis found that both types of problem have high discrimination (>1.5) with no significant differences. Student performance on open-bank and transfer problems are highly correlated with each other, and the correlations are stronger than average correlations between problems on the exam. Exploratory factor analysis also found that open-bank and transfer problems load on the same factor, and even formed their own factor on the second exam. Those observations all suggest that giving students open access to large isomorphic problem banks only had a small impact on students' performance on the exam but could have significant potential in reforming traditional classroom exams.
Abstract（参考訳）: 本稿では、大規模な同型問題銀行を用いて、大規模なSTEMクラスにおける従来の試験の課題を克服し、特にコンテンツ共有サイトや生成AIが試験項目のセキュリティを脅かすことを考察する。まず, 大規模言語モデルgpt-3 と各種オープンソースツールを用いて, 多数の同型物理問題を作成するための効率的な手順を提案する。次に,問題バンクから試験項目がランダムに抽出された場合,試験前の問題バンクへのオープンアクセスを学生に与えることは,試験における学生の成績に劇的な影響を与えないか,あるいは幅広い解の暗記に繋がることを提案する。この仮説を2つの中等式物理試験で検証し,開同型問題バンクから引き出された問題と,試験前の学生がアクセスできない類似の伝達問題とを比較した。いずれの試験でも,オープンバンク問題とトランスファー問題はともに最も困難であった。正解率の差は5%から10%であり、同じ問題型の異型版の違いに匹敵するものであった。項目応答理論分析の結果,両問題とも高い識別率(>1.5)を示し,有意な差は認められなかった。オープンバンクとトランスファー問題における学生の成績は相互に強く相関しており, 試験における問題の平均的相関よりも相関が強い。探索的因子分析では、オープンバンクと転送問題は同じ要因に負担され、2回目の試験でそれぞれ独自の因子を形成していることも判明した。これらの結果は、学生が大きな同型問題銀行に開放されることは、学生の試験成績にわずかな影響しか与えず、従来の教室試験の改革に有意義な可能性を示唆している。

関連論文リスト

PhysUniBench: An Undergraduate-Level Physics Reasoning Benchmark for Multimodal Models [69.73115077227969]
大規模言語モデル(MLLM)の推論能力の評価と改善を目的とした大規模ベンチマークであるPhysUniBenchを提案する。 PhysUniBenchは、3,304の物理問題から成っている。ベンチマークの構成には、複数のロールアウト、専門家レベルの評価、解決が容易な問題の自動フィルタリング、そして5段階の難易度グレーディングシステムを含む、厳格な多段階プロセスが含まれていた。
論文参考訳（メタデータ） (2025-06-21T09:55:42Z)
MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations [90.07275414500154]
各種モデルにおけるMATH-P-Hardの性能低下を観察する。また、学習した問題解決スキルを盲目的に適用する新しい形態の記憶に関する懸念も提起する。
論文参考訳（メタデータ） (2025-02-10T13:31:46Z)
OpenAI-o1 AB Testing: Does the o1 model really do good reasoning in math problem solving? [2.851415653352522]
OpenAIによるOrion-1モデルは、以前の大規模言語モデルよりも堅牢な論理的推論能力を持つと言われている。 IMO(International Mathematics Olympiad)問題からなる2つのデータセットを用いて比較実験を行った。モデルが問題や解の記憶に依存していることを示す重要な証拠は存在しないと結論付けている。
論文参考訳（メタデータ） (2024-11-09T14:47:52Z)
MathGAP: Out-of-Distribution Evaluation on Problems with Arbitrarily Complex Proofs [80.96119560172224]
大規模言語モデル(LLM)は、高い精度で算術語問題を解くことができるが、訓練された言語よりも複雑な問題にどのように一般化するかは、ほとんど分かっていない。本研究では、任意に複雑な算術証明問題に対する LLM の評価フレームワーク、MathGAP を提案する。
論文参考訳（メタデータ） (2024-10-17T12:48:14Z)
Can Model Uncertainty Function as a Proxy for Multiple-Choice Question Item Difficulty? [12.638577140117702]
我々は、質問に答える際の弱点と見なされるような、生成的な大規模モデルの側面を活用する。本研究では、不確実性の2つの異なる指標と実際の学生の反応分布の相関について検討する。
論文参考訳（メタデータ） (2024-07-07T10:48:04Z)
Visualizing Quantum States: A Pilot Study on Problem Solving in Quantum Information Science Education [1.8879980022743639]
本稿では,課題解決時の生徒のパフォーマンスと認知負荷を評価するためのテスト項目と完全な方法論を提案する。これは、仮説を導き、より大規模な、より具体的な研究を導くことを目的とした、膨大な疑問を伴うパイロット調査である。特に興味深いのは、アダマール門、CNOT門、マルチビットシステムの絡み合いのさらなる調査である。
論文参考訳（メタデータ） (2024-06-24T11:46:35Z)
SciFIBench: Benchmarking Large Multimodal Models for Scientific Figure Interpretation [50.061029816288936]
本稿では,SciFIBenchを科学的図形解釈ベンチマークとして紹介する。主要なベンチマークは、12のカテゴリにまたがる2つのタスクで分割された1000個のゴールドの質問からなる。質問はCS arXiv紙のフィギュアとキャプションから収集され、敵対的フィルタリングを用いてハードネガティブを見つけ、品質管理のための人間による検証を行う。 SciFIBench上で26のLMMを評価し、これは挑戦的なベンチマークであることが判明した。
論文参考訳（メタデータ） (2024-05-14T17:54:17Z)
Automatic question generation for propositional logical equivalences [6.221146613622175]
そこで我々は,各学生に対して適切な質問を生成できる手法を開発し,実装する。従来の研究では、妥当性、ユーザ定義の困難さ、パーソナライズされた問題生成を含む、教育におけるAQGフレームワークについて研究されてきた。我々の新しいAQGアプローチは、一年生のコンピュータサイエンス学生にとってコアコースである離散数学に論理的等価性問題をもたらす。
論文参考訳（メタデータ） (2024-05-09T02:44:42Z)
Diversifying the Mixture-of-Experts Representation for Language Models with Orthogonal Optimizer [59.43462055143123]
The Mixture of Experts (MoE)は、ディープラーニングにおいて非常に成功したテクニックとして登場した。本研究では,MoEの専門家が多様性の専門化や欠如に失敗した同質表現問題に光を当てた。我々は,各専門家が他の専門家に分散された部分空間への方向を更新するように促す訓練戦略を交互に提案する。
論文参考訳（メタデータ） (2023-10-15T07:20:28Z)
SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models [70.5763210869525]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。 SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文参考訳（メタデータ） (2023-07-20T07:01:57Z)
The Multimarginal Optimal Transport Formulation of Adversarial Multiclass Classification [0.0]
多クラス分類における逆学習問題の幾何学的構造について述べる。この結果の直接的な計算的意味は、バリセンタ問題とその双対、あるいはMOT問題とその双対を解くことにより、最適なロバストな分類規則を回復できるということである。
論文参考訳（メタデータ） (2022-04-27T03:07:39Z)
ExamGAN and Twin-ExamGAN for Exam Script Generation [3.1902272671210468]
授業中の学生のスコアを望ましい分布にできる試験スクリプトをどうやって生成するかは、まだ不明である。評価において同等の高品質なテストスクリプトをどうやって生成するかは、今のところ不明である。本稿では,高品質な試験スクリプトを生成するためにExamGANを提案し,その後,T-ExamGANに拡張して高品質な試験スクリプトを生成する。
論文参考訳（メタデータ） (2021-08-22T07:34:15Z)
GeoQA: A Geometric Question Answering Benchmark Towards Multimodal Numerical Reasoning [172.36214872466707]
我々は、テキスト記述、視覚図、定理知識の包括的理解を必要とする幾何学的問題を解くことに注力する。そこで本研究では,5,010の幾何学的問題を含む幾何学的質問応答データセットGeoQAを提案する。
論文参考訳（メタデータ） (2021-05-30T12:34:17Z)
The Influence of Domain-Based Preprocessing on Subject-Specific Clustering [55.41644538483948]
大学におけるオンライン教育の大部分を突然移行させることで、学者の作業負荷が増大した。この問題に対処するひとつの方法は、トピックに応じてこれらの質問をクラスタ化することです。本稿では,タグ付けデータセットの領域を探求し,コードの抜粋の同定と経験的結果の提供に焦点をあてる。
論文参考訳（メタデータ） (2020-11-16T17:47:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。