論文の概要: Scalable Generation and Validation of Isomorphic Physics Problems with GenAI
- arxiv url: http://arxiv.org/abs/2602.05114v1
- Date: Wed, 04 Feb 2026 23:01:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.658643
- Title: Scalable Generation and Validation of Isomorphic Physics Problems with GenAI
- Title(参考訳): GenAIを用いた等方性物理問題の生成と検証
- Authors: Naiming Liu, Leo Murch, Spencer Moore, Tong Wan, Shashank Sonkar, Richard Baraniuk, Zhongzhou Chen,
- Abstract要約: 生成AIを用いた大規模同型物理問題バンクの生成と評価のためのフレームワークを提案する。
我々の生成フレームワークは、構造的変動を正確に制御するために、即時連鎖とツールの使用を用いています。
事前デプロイ検証では、17のオープンソース言語モデル(LM)を用いて生成項目を評価し,実際の学生のパフォーマンスと比較した。
- 参考スコア(独自算出の注目度): 2.249733437447874
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional synchronous STEM assessments face growing challenges including accessibility barriers, security concerns from resource-sharing platforms, and limited comparability across institutions. We present a framework for generating and evaluating large-scale isomorphic physics problem banks using Generative AI to enable asynchronous, multi-attempt assessments. Isomorphic problems test identical concepts through varied surface features and contexts, providing richer variation than conventional parameterized questions while maintaining consistent difficulty. Our generation framework employs prompt chaining and tool use to achieve precise control over structural variations (numeric values, spatial relations) alongside diverse contextual variations. For pre-deployment validation, we evaluate generated items using 17 open-source language models (LMs) (0.6B-32B) and compare against actual student performance (N>200) across three midterm exams. Results show that 73% of deployed banks achieve statistically homogeneous difficulty, and LMs pattern correlate strongly with student performance (Pearson's $ρ$ up to 0.594). Additionally, LMs successfully identify problematic variants, such as ambiguous problem texts. Model scale also proves critical for effective validation, where extremely small (<4B) and large (>14B) models exhibit floor and ceiling effects respectively, making mid-sized models optimal for detecting difficulty outliers.
- Abstract(参考訳): 従来の同期STEMアセスメントでは、アクセシビリティ障壁、リソース共有プラットフォームからのセキュリティ上の懸念、機関間の互換性の制限といった課題が増えている。
本稿では,ジェネレーティブAIを用いた大規模等方的物理問題バンクの生成と評価を行い,非同期かつ多目的な評価を実現するためのフレームワークを提案する。
同型問題は、異なる表面の特徴と文脈を通して同一の概念をテストし、一貫した難易度を維持しながら、従来のパラメータ化された質問よりもリッチなバリエーションを提供する。
我々の生成フレームワークは、構造的変動(数値値、空間関係)を、多様な文脈的変動と共に正確に制御するために、即時連鎖とツールの使用を用いています。
事前デプロイ検証では,17のオープンソース言語モデル (LM) (0.6B-32B) を用いた生成項目の評価を行い,中間試験3回の実際の学生成績 (N>200) と比較した。
その結果、展開銀行の73%が統計的に均一な難易度を達成しており、LMsパターンは学生のパフォーマンスと強く相関している(ピアソンの$ρ$ 0.594)。
さらに、LMは曖昧な問題テキストのような問題のある変種を特定することに成功した。
モデルスケールは、非常に小さな (<4B) と大きな (>14B) モデルがそれぞれ床効果と天井効果を示し、難易度を検出するのに最適な中型モデルである。
関連論文リスト
- From Abstract to Contextual: What LLMs Still Cannot Do in Mathematics [79.81905350372067]
我々は文脈的数学的推論を通してギャップを研究する。
AIMEとMATH-500の問題を2つのコンテキスト設定に再利用するベンチマークであるContextMATHを紹介する。
オープンソースモデルはSGとCSで13、34ポイント減少し、プロプライエタリモデルは13、20ポイント減少している。
論文 参考訳(メタデータ) (2026-01-30T14:56:04Z) - QueST: Incentivizing LLMs to Generate Difficult Problems [77.75835742350644]
大規模言語モデルは、推論タスク、競合レベルのコーディングと数学の問題を解く上で、強力なパフォーマンスを達成した。
既存の競合するコーディングデータセットには、数千から数万の問題しか含まれていない。
本稿では,難解なグラフサンプリングと難解な拒否の微調整を組み合わせた新しいフレームワークであるQueSTを提案する。
論文 参考訳(メタデータ) (2025-10-20T16:29:53Z) - ScaleDiff: Scaling Difficult Problems for Advanced Mathematical Reasoning [51.946959481392064]
大規模推論モデル (LRM) は複雑な問題解決において顕著な能力を示している。
難しい問題の生成をスケールするために設計されたパイプラインであるScaleDiffを提案する。
我々のパイプラインは、より大きくて高価な教師モデルに頼ることなく、高度な推論能力を効果的に伝達できることを示します。
論文 参考訳(メタデータ) (2025-09-25T12:22:44Z) - MAB Optimizer for Estimating Math Question Difficulty via Inverse CV without NLP [3.9566483499208633]
本研究では,強化学習に基づくマルチアーメッドバンド(MAB)フレームワークであるEducands(APME)のパッシブ対策のアプローチを紹介する。
変動の逆係数をリスク調整計量として活用することにより、モデルは適応的評価のための説明可能でスケーラブルなメカニズムを提供する。
論文 参考訳(メタデータ) (2025-08-26T13:23:31Z) - Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models [13.532180752491954]
大規模言語モデル(LLM)は、しばしばスケーリング法則に従う強力な一般化を持つ基礎モデルの例として記述される。
ここでは、強い関数を主張する全てのSOTAモデルの一般化と基本的推論の劇的な分解を示す。
また、間違った解法において強い過信感を観察し、妥当な音響的説明のような折り畳みの形で表現する。
論文 参考訳(メタデータ) (2024-06-04T07:43:33Z) - Evaluating Concurrent Robustness of Language Models Across Diverse Challenge Sets [46.19529338280716]
言語モデルはブラックボックスの性質が特徴で、しばしば幻覚を呈し、入力の摂動に敏感である。
入力摂動が言語モデルにどう影響するかを,様々な尺度で検討する手法を提案する。
複数の摂動に対するロバスト性に対処するための3つの異なる微調整戦略を提案する。
論文 参考訳(メタデータ) (2023-11-15T02:59:10Z) - A Causal Framework to Quantify the Robustness of Mathematical Reasoning
with Language Models [81.15974174627785]
入力空間における直接的介入に対する頑健さと感度の観点から言語モデルの振舞いについて検討する。
しかし, GPT-3 Davinciモデル(175B)は, 他のGPTモデルと比較して, 頑健さと感度の両面で劇的な改善を実現している。
論文 参考訳(メタデータ) (2022-10-21T15:12:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。