論文の概要: Overview of AI Grading of Physics Olympiad Exams
- arxiv url: http://arxiv.org/abs/2505.02121v1
- Date: Sun, 04 May 2025 14:04:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.435251
- Title: Overview of AI Grading of Physics Olympiad Exams
- Title(参考訳): 物理オリンピックエキシビタムのAIグレーディングの概要
- Authors: Lachlan McGinness,
- Abstract要約: 本稿では,物理グレーディング技術に関する体系的文献レビューの成果を報告する。
これらの課題に対処するために,マルチモーダルAIグレーディングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatically grading the diverse range of question types in high school physics problem is a challenge that requires automated grading techniques from different fields. We report the findings of a Systematic Literature Review of potential physics grading techniques. We propose a multi-modal AI grading framework to address these challenges and examine our framework in light of Australia's AI Ethical Principles.
- Abstract(参考訳): 高校の物理問題における多様な質問タイプを自動グルーピングすることは、異なる分野からの自動グルーピング技術を必要とする課題である。
本稿では,物理グレーディング技術に関する体系的文献レビューの成果を報告する。
オーストラリアのAI倫理原則に照らして,これらの課題に対処するマルチモーダルAIグレーディングフレームワークを提案し,我々のフレームワークについて検討する。
関連論文リスト
- Theoretical Physics Benchmark (TPBench) -- a Dataset and Study of AI Reasoning Capabilities in Theoretical Physics [13.530403536762064]
我々は、高エネルギー理論と宇宙論に焦点をあて、理論物理学における問題を解決するAIの能力を評価するためのベンチマークを導入する。
ベンチマークの最初のイテレーションは、学部レベルから研究レベルまで、難易度が異なる57の問題で構成されています。
我々は、o3-mini、o1、DeepSeek-R1、GPT-4o、LlamaとQwenのバージョンなど、オープンでクローズドな言語モデルでデータセットを評価した。
論文 参考訳(メタデータ) (2025-02-19T19:00:00Z) - UGPhysics: A Comprehensive Benchmark for Undergraduate Physics Reasoning with Large Language Models [39.917074900737575]
大規模言語モデル(LLM)は、複雑な推論タスクを解く際、顕著な能力を示した。
物理学の推論の領域は、非常に少ない注意を払われたユニークな課題を提示する。
既存のベンチマークは、学部レベルの物理学の広さと深さでLLMの能力を評価するのに不足することが多い。
論文 参考訳(メタデータ) (2025-02-01T06:42:02Z) - OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI [73.75520820608232]
我々は,11,163のバイリンガル問題を含む,テキストのみとインターリーブされたテキストイメージのモダリティを紹介する。
これらの課題には、7つのフィールドと62の国際オリンピック大会にわたる幅広い規律が含まれており、データ漏洩について厳格に調査されている。
我々の評価によると、GPT-4oのような先進モデルでさえ、複雑な推論とマルチモーダル統合における現在のAI制限を反映して、全体的な精度は39.97%しか達成していない。
論文 参考訳(メタデータ) (2024-06-18T16:20:53Z) - OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems [62.06169250463104]
我々はOlympiadレベルのバイリンガル・マルチモーダル・サイエンス・ベンチマークであるOlympiadBenchを紹介し、Olympiadレベルの数学と物理学のコンペティションの8,476の問題を特徴とする。
最も優れたモデルであるGPT-4Vはオリンピアドベンチで平均17.97%を獲得し、物理学ではわずか10.74%である。
GPT-4Vの分析では、幻覚、知識欠失、論理的誤信などの問題が指摘されている。
論文 参考訳(メタデータ) (2024-02-21T18:49:26Z) - Physics simulation capabilities of LLMs [0.0]
大規模言語モデル(LLM)は、学部レベルから大学院レベルの物理学教科書の問題を解くことができ、コーディングに精通している。
本稿では、PhDレベルから研究レベルの計算物理問題に対するSOTA (State-of-the-art) LLMの評価を行う。
論文 参考訳(メタデータ) (2023-12-04T18:06:41Z) - Artificial Intelligence for Science in Quantum, Atomistic, and Continuum Systems [268.585904751315]
科学のためのAI(AI4Science)として知られる新しい研究領域
領域は、物理世界(波動関数と電子密度)、原子(分子、タンパク質、物質、相互作用)、マクロ(流体、気候、地下)まで理解することを目的としている。
主要な課題は、物理第一原理、特に対称性を深層学習法によって自然システムで捉える方法である。
論文 参考訳(メタデータ) (2023-07-17T12:14:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。