論文の概要: Towards a Large Physics Benchmark
- arxiv url: http://arxiv.org/abs/2507.21695v1
- Date: Tue, 29 Jul 2025 11:19:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.060503
- Title: Towards a Large Physics Benchmark
- Title(参考訳): 大規模物理ベンチマークに向けて
- Authors: Kristian G. Barman, Sascha Caron, Faegheh Hasibi, Eugene Shalugin, Yoris Marcet, Johannes Otte, Henk W. de Regt, Merijn Moody,
- Abstract要約: 本稿では,基礎物理学における大規模言語モデル開発の評価,監視,評価を行うためのベンチマークフレームワークを提案する。
我々は,各質問が専門家によって正当性,難易度,驚きによってスコア付けされるスコアシステムを開発する。
現在のデータセットには、高エネルギー物理イベントを分類する機械学習チャレンジなど、さまざまな例が含まれています。
- 参考スコア(独自算出の注目度): 1.882115594816394
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce a benchmark framework developed by and for the scientific community to evaluate, monitor and steer large language model development in fundamental physics. Building on philosophical concepts of scientific understanding and creativity, we develop a scoring system in which each question is scored by an expert for its correctness, difficulty, and surprise. The questions are of three forms: (i) multiple-choice questions for conceptual understanding, (ii) analytical problems requiring mathematical derivation, and (iii) openended tasks requiring complex problem solving. Our current dataset contains diverse set of examples, including a machine learning challenge to classify high-energy physics events, such as the four top quark signal. To ensure continued relevance, we propose a living benchmark, where physicists contribute questions, for instance alongside new publications. We invite contributions via: http://www.physicsbenchmarks.org/. We hope that this benchmark will enable a targeted AI development that can make a meaningful contribution to fundamental physics research.
- Abstract(参考訳): 本稿では,基礎物理学における大規模言語モデル開発の評価,監視,運営を行うための,科学コミュニティが開発したベンチマークフレームワークを紹介する。
科学的理解と創造性の哲学的概念に基づいて、我々は、各質問が専門家によって正しさ、難しさ、驚きについてスコア付けされるスコアリングシステムを開発する。
質問は以下の3つの形式からなる。
(i)概念理解のための複数選択質問。
二 数学的導出を必要とする解析上の問題、及び
(三)複雑な問題解決を必要とする作業の開放。
現在のデータセットには、トップクォーク信号などの高エネルギー物理事象を分類する機械学習チャレンジを含む、さまざまな例が含まれています。
そこで我々は,物理学者が新たな出版物とともに質問に回答する,生きたベンチマークを提案する。
コントリビューションは、http://www.physicsbenchmarks.org/.comから募集します。
このベンチマークによって、基礎物理学研究に有意義な貢献ができるAI開発が可能になることを願っている。
関連論文リスト
- Symbolic or Numerical? Understanding Physics Problem Solving in Reasoning LLMs [12.215295420714787]
本研究では、Deepseek-R1のような高度な命令調整推論モデルを用いて、挑戦的なSciBenchベンチマークから計算した様々な物理問題に対処する。
複雑な物理問題に答える際の最先端の精度を達成するだけでなく、象徴的導出を強調する独特の推論パターンも生成する。
論文 参考訳(メタデータ) (2025-07-02T03:51:16Z) - PhysUniBench: An Undergraduate-Level Physics Reasoning Benchmark for Multimodal Models [69.73115077227969]
大規模言語モデル(MLLM)の推論能力の評価と改善を目的とした大規模ベンチマークであるPhysUniBenchを提案する。
PhysUniBenchは、3,304の物理問題から成っている。
ベンチマークの構成には、複数のロールアウト、専門家レベルの評価、解決が容易な問題の自動フィルタリング、そして5段階の難易度グレーディングシステムを含む、厳格な多段階プロセスが含まれていた。
論文 参考訳(メタデータ) (2025-06-21T09:55:42Z) - Can Theoretical Physics Research Benefit from Language Agents? [50.57057488167844]
大規模言語モデル(LLM)は、様々な領域にわたって急速に進歩しているが、理論物理学研究への応用はまだ成熟していない。
このポジションペーパーは、LLMエージェントが、ドメイン知識やツールボックスと適切に統合された場合、理論的、計算的、応用物理学を加速するのに役立つと主張している。
マルチモーダルデータを処理し、検証可能な仮説を提案し、設計実験を行う物理特殊化LSMを構想する。
論文 参考訳(メタデータ) (2025-06-06T16:20:06Z) - SeePhys: Does Seeing Help Thinking? -- Benchmarking Vision-Based Physics Reasoning [89.48883747910448]
物理問題に基づく推論のための大規模マルチモーダルベンチマークである SeePhys を提示する。
このベンチマークは、物理学の分野にまたがる7つの基本的な領域をカバーし、21のカテゴリの非常に異質なダイアグラムを取り入れている。
最も先進的な視覚推論モデル(例えばGemini-2.5-proやo4-mini)でさえ、ベンチマークで60%未満の精度を実現している。
論文 参考訳(メタデータ) (2025-05-25T11:28:34Z) - PhysicsArena: The First Multimodal Physics Reasoning Benchmark Exploring Variable, Process, and Solution Dimensions [9.428916253383402]
PhysicsArenaは、MLLMのマルチモーダル物理推論能力の評価と向上のための総合的なプラットフォームを提供することを目指している。
MLLMは様々な推論タスクにおいて顕著な能力を示してきたが、複雑な物理推論への応用は未解明のままである。
論文 参考訳(メタデータ) (2025-05-21T12:48:16Z) - PHYSICS: Benchmarking Foundation Models on University-Level Physics Problem Solving [38.44445350202585]
大学レベルの物理問題解決のための総合的なベンチマークであるPHYSICSを紹介する。
古典力学、量子力学、熱力学、統計力学、電磁気学、原子物理学、光学の6つの中核領域をカバーする1297のエキスパート注釈付き問題を含んでいる。
論文 参考訳(メタデータ) (2025-03-26T06:21:56Z) - Theoretical Physics Benchmark (TPBench) -- a Dataset and Study of AI Reasoning Capabilities in Theoretical Physics [13.530403536762064]
我々は、高エネルギー理論と宇宙論に焦点をあて、理論物理学における問題を解決するAIの能力を評価するためのベンチマークを導入する。
ベンチマークの最初のイテレーションは、学部レベルから研究レベルまで、難易度が異なる57の問題で構成されています。
我々は、o3-mini、o1、DeepSeek-R1、GPT-4o、LlamaとQwenのバージョンなど、オープンでクローズドな言語モデルでデータセットを評価した。
論文 参考訳(メタデータ) (2025-02-19T19:00:00Z) - Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation [51.750634349748736]
テキスト・ツー・ビデオ(T2V)モデルは複雑なプロンプトの可視化に大きく貢献している。
しかし、直感的な物理を正確に表現するこれらのモデルの能力はほとんど解明されていない。
本稿では,T2V生成における物理コモンセンスの正しさを評価するためにPhyGenBenchを導入する。
論文 参考訳(メタデータ) (2024-10-07T17:56:04Z) - ACQUIRED: A Dataset for Answering Counterfactual Questions In Real-Life
Videos [53.92440577914417]
ACQUIREDは3.9Kの注釈付きビデオで構成され、幅広いイベントタイプを包含し、ファーストパーソンとサードパーソンの両方の視点を取り入れている。
各ビデオは、物理的、社会的、時間的な3つの異なる推論の次元にまたがる質問で注釈付けされている。
我々は,現在最先端の言語のみおよびマルチモーダルモデルに対して,我々のデータセットをベンチマークし,実験結果から大きな性能差が示された。
論文 参考訳(メタデータ) (2023-11-02T22:17:03Z) - Towards a Holistic Understanding of Mathematical Questions with
Contrastive Pre-training [65.10741459705739]
本稿では,数学的問題表現,すなわち QuesCo に対する対照的な事前学習手法を提案する。
まず、コンテンツレベルと構造レベルを含む2段階の質問強化を設計し、類似した目的で文字通り多様な質問ペアを生成する。
そこで我々は,知識概念の階層的情報を完全に活用するために,知識階層を意識したランク戦略を提案する。
論文 参考訳(メタデータ) (2023-01-18T14:23:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。