論文の概要: Towards a Large Physics Benchmark
- arxiv url: http://arxiv.org/abs/2507.21695v1
- Date: Tue, 29 Jul 2025 11:19:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.060503
- Title: Towards a Large Physics Benchmark
- Title(参考訳): 大規模物理ベンチマークに向けて
- Authors: Kristian G. Barman, Sascha Caron, Faegheh Hasibi, Eugene Shalugin, Yoris Marcet, Johannes Otte, Henk W. de Regt, Merijn Moody,
- Abstract要約: 本稿では,基礎物理学における大規模言語モデル開発の評価,監視,評価を行うためのベンチマークフレームワークを提案する。
我々は,各質問が専門家によって正当性,難易度,驚きによってスコア付けされるスコアシステムを開発する。
現在のデータセットには、高エネルギー物理イベントを分類する機械学習チャレンジなど、さまざまな例が含まれています。
- 参考スコア(独自算出の注目度): 1.882115594816394
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce a benchmark framework developed by and for the scientific community to evaluate, monitor and steer large language model development in fundamental physics. Building on philosophical concepts of scientific understanding and creativity, we develop a scoring system in which each question is scored by an expert for its correctness, difficulty, and surprise. The questions are of three forms: (i) multiple-choice questions for conceptual understanding, (ii) analytical problems requiring mathematical derivation, and (iii) openended tasks requiring complex problem solving. Our current dataset contains diverse set of examples, including a machine learning challenge to classify high-energy physics events, such as the four top quark signal. To ensure continued relevance, we propose a living benchmark, where physicists contribute questions, for instance alongside new publications. We invite contributions via: http://www.physicsbenchmarks.org/. We hope that this benchmark will enable a targeted AI development that can make a meaningful contribution to fundamental physics research.
- Abstract(参考訳): 本稿では,基礎物理学における大規模言語モデル開発の評価,監視,運営を行うための,科学コミュニティが開発したベンチマークフレームワークを紹介する。
科学的理解と創造性の哲学的概念に基づいて、我々は、各質問が専門家によって正しさ、難しさ、驚きについてスコア付けされるスコアリングシステムを開発する。
質問は以下の3つの形式からなる。
(i)概念理解のための複数選択質問。
二 数学的導出を必要とする解析上の問題、及び
(三)複雑な問題解決を必要とする作業の開放。
現在のデータセットには、トップクォーク信号などの高エネルギー物理事象を分類する機械学習チャレンジを含む、さまざまな例が含まれています。
そこで我々は,物理学者が新たな出版物とともに質問に回答する,生きたベンチマークを提案する。
コントリビューションは、http://www.physicsbenchmarks.org/.comから募集します。
このベンチマークによって、基礎物理学研究に有意義な貢献ができるAI開発が可能になることを願っている。
関連論文リスト
- PhysUniBench: An Undergraduate-Level Physics Reasoning Benchmark for Multimodal Models [69.73115077227969]
大規模言語モデル(MLLM)の推論能力の評価と改善を目的とした大規模ベンチマークであるPhysUniBenchを提案する。
PhysUniBenchは、3,304の物理問題から成っている。
ベンチマークの構成には、複数のロールアウト、専門家レベルの評価、解決が容易な問題の自動フィルタリング、そして5段階の難易度グレーディングシステムを含む、厳格な多段階プロセスが含まれていた。
論文 参考訳(メタデータ) (2025-06-21T09:55:42Z) - Can Theoretical Physics Research Benefit from Language Agents? [50.57057488167844]
大規模言語モデル(LLM)は、様々な領域にわたって急速に進歩しているが、理論物理学研究への応用はまだ成熟していない。
このポジションペーパーは、LLMエージェントが、ドメイン知識やツールボックスと適切に統合された場合、理論的、計算的、応用物理学を加速するのに役立つと主張している。
マルチモーダルデータを処理し、検証可能な仮説を提案し、設計実験を行う物理特殊化LSMを構想する。
論文 参考訳(メタデータ) (2025-06-06T16:20:06Z) - SeePhys: Does Seeing Help Thinking? -- Benchmarking Vision-Based Physics Reasoning [89.48883747910448]
物理問題に基づく推論のための大規模マルチモーダルベンチマークである SeePhys を提示する。
このベンチマークは、物理学の分野にまたがる7つの基本的な領域をカバーし、21のカテゴリの非常に異質なダイアグラムを取り入れている。
最も先進的な視覚推論モデル(例えばGemini-2.5-proやo4-mini)でさえ、ベンチマークで60%未満の精度を実現している。
論文 参考訳(メタデータ) (2025-05-25T11:28:34Z) - PhysicsArena: The First Multimodal Physics Reasoning Benchmark Exploring Variable, Process, and Solution Dimensions [9.428916253383402]
PhysicsArenaは、MLLMのマルチモーダル物理推論能力の評価と向上のための総合的なプラットフォームを提供することを目指している。
MLLMは様々な推論タスクにおいて顕著な能力を示してきたが、複雑な物理推論への応用は未解明のままである。
論文 参考訳(メタデータ) (2025-05-21T12:48:16Z) - PHYSICS: Benchmarking Foundation Models on University-Level Physics Problem Solving [38.44445350202585]
大学レベルの物理問題解決のための総合的なベンチマークであるPHYSICSを紹介する。
古典力学、量子力学、熱力学、統計力学、電磁気学、原子物理学、光学の6つの中核領域をカバーする1297のエキスパート注釈付き問題を含んでいる。
論文 参考訳(メタデータ) (2025-03-26T06:21:56Z) - Towards a Holistic Understanding of Mathematical Questions with
Contrastive Pre-training [65.10741459705739]
本稿では,数学的問題表現,すなわち QuesCo に対する対照的な事前学習手法を提案する。
まず、コンテンツレベルと構造レベルを含む2段階の質問強化を設計し、類似した目的で文字通り多様な質問ペアを生成する。
そこで我々は,知識概念の階層的情報を完全に活用するために,知識階層を意識したランク戦略を提案する。
論文 参考訳(メタデータ) (2023-01-18T14:23:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。