論文の概要: FeynmanBench: Benchmarking Multimodal LLMs on Diagrammatic Physics Reasoning
- arxiv url: http://arxiv.org/abs/2604.03893v1
- Date: Sat, 04 Apr 2026 23:18:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.821002
- Title: FeynmanBench: Benchmarking Multimodal LLMs on Diagrammatic Physics Reasoning
- Title(参考訳): FeynmanBench: ダイアグラム物理推論におけるマルチモーダルLLMのベンチマーク
- Authors: Zeyu Wang, Xiaogang Li, Peiyao Xiao, Qinhao Kong, Ben Wang, Chengliang Xu, Zichao Chen, Bing Zhao, Hu Wei,
- Abstract要約: Feynman Benchは、Feynmanダイアグラムタスクを中心とした最初のベンチマークである。
マルチステップ図式推論のためのAIの能力を評価するように設計されている。
我々のデータベースは、標準モデルの電磁的、弱い、強い相互作用にまたがっている。
- 参考スコア(独自算出の注目度): 11.098160996983417
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Breakthroughs in frontier theory often depend on the combination of concrete diagrammatic notations with rigorous logic. While multimodal large language models (MLLMs) show promise in general scientific tasks, current benchmarks often focus on local information extraction rather than the global structural logic inherent in formal scientific notations. In this work, we introduce FeynmanBench, the first benchmark centered on Feynman diagram tasks. It is designed to evaluate AI's capacity for multistep diagrammatic reasoning, which requires satisfying conservation laws and symmetry constraints, identifying graph topology, converting between diagrammatic and algebraic representations, and constructing scattering amplitudes under specific conventions and gauges. To support large-scale and reproducible evaluation, we developed an automated pipeline producing diverse Feynman diagrams along with verifiable topological annotations and amplitude results. Our database spans the electromagnetic, weak, and strong interactions of the Standard Model, encompasses over 100 distinct types and includes more than 2000 tasks. Experiments on state-of-the-art MLLMs reveal systematic failure modes, including unstable enforcement of physical constraints and violations of global topological conditions, highlighting the need for physics-grounded benchmarks for visual reasoning over scientific notation. FeynmanBench provides a logically rigorous test of whether AI can effectively engage in scientific discovery, particularly within theoretical physics.
- Abstract(参考訳): フロンティア理論におけるブレークスルーはしばしば、具体的な図式記法と厳密な論理の組み合わせに依存する。
MLLM(Multimodal large language model)は一般的な科学的タスクにおいて有望であるが、現在のベンチマークでは、形式的な科学的表記法に固有のグローバルな構造論理よりも、局所的な情報抽出に重点を置いていることが多い。
本稿では、ファインマンダイアグラムタスクを中心とした最初のベンチマークであるFeynmanBenchを紹介する。
グラフトポロジーの同定、図形表現と代数表現の変換、特定の規則とゲージの下で散乱振幅を構築することを必要とする多段階図形推論のためのAIの能力を評価するように設計されている。
大規模かつ再現可能な評価を支援するため,様々なファインマン図を生成する自動パイプラインと,検証可能なトポロジアノテーションと振幅結果を開発した。
我々のデータベースは、標準モデルの電磁的、弱い、強い相互作用にまたがっており、100以上の異なるタイプを含み、2000以上のタスクを含んでいる。
最先端のMLLMの実験では、物理的制約の不安定な実施やグローバルなトポロジカルな条件の違反など、系統的な障害モードが示され、科学的な表記よりも視覚的推論のための物理式ベンチマークの必要性が強調された。
FeynmanBench氏は、特に理論物理学において、AIが科学的発見に効果的に関与できるかどうかを論理的に厳格に検証している。
関連論文リスト
- OMNIFLOW: A Physics-Grounded Multimodal Agent for Generalized Scientific Reasoning [51.33849811496781]
大規模言語モデル (LLM) は例外的な論理的推論能力を示しているが、部分微分方程式 (PDE) による連続力学としばしば競合する。
OMNIFLOWは, 領域固有のパラメータ更新を必要とせず, 基本物理法則で凍結LDMを基底として設計したマルチモーダルシンボリックアーキテクチャである。
我々は, 微視的乱流, 理論的ナビエ・ストークス, マクロ的世界天気予報のベンチマークでこれを評価した。
論文 参考訳(メタデータ) (2026-03-16T18:29:01Z) - P1-VL: Bridging Visual Perception and Scientific Reasoning in Physics Olympiads [91.05736019384489]
我々は、先進的な科学的推論のために設計されたオープンソースのビジョン言語モデルのファミリーであるP1-VLを紹介する。
当社のフラッグシップモデルであるP1-VL-235B-A22Bは、12個の金メダルを確保し、オープンソースモデルで最先端のパフォーマンスを達成した最初のオープンソースVision-Language Modelになります。
論文 参考訳(メタデータ) (2026-02-10T06:28:08Z) - SciIF: Benchmarking Scientific Instruction Following Towards Rigorous Scientific Intelligence [60.202862987441684]
科学的妥当性を確立する制約に厳格に固執しながら、問題を解決する能力。
具体的には,大学レベルの問題と制約の固定されたカタログをペアにすることで,この能力を評価するマルチディシプリンのベンチマークであるSciIFを紹介する。
SciIFは、解の正当性と多拘束性の両方を測定することにより、構成的推論失敗のきめ細かい診断を可能にする。
論文 参考訳(メタデータ) (2026-01-08T09:45:58Z) - RxnBench: A Multimodal Benchmark for Evaluating Large Language Models on Chemical Reaction Understanding from Scientific Literature [25.978951548176706]
RxnBenchは科学的なPDFから化学反応を理解する上でMLLMを厳格に評価するためのベンチマークである。
RxnBenchは2つのタスクからなる: きめ細かい視覚知覚と機械的推論をテストするシングルフィギュアQA (SF-QA) と、108の記事から情報を合成するためのモデルに挑戦するフルドキュメントQA (FD-QA) である。
MLLMの評価は, 明確なテキストの抽出に優れたモデルではあるものの, 深層化学論理と正確な構造認識に苦慮している。
論文 参考訳(メタデータ) (2025-12-29T16:05:38Z) - PRiSM: An Agentic Multimodal Benchmark for Scientific Reasoning via Python-Grounded Evaluation [7.0748516420242495]
PRiSMは、基底Pythonコードによる科学的推論を評価するための、合成、完全に動的、マルチモーダルベンチマークである。
PRiSMには24750以上の大学レベルの物理学と数学の問題が含まれており、スケーラブルなエージェントベースのパイプラインであるPrismAgentを活用しています。
本稿では,摂動,記号型プログラム合成,ロバスト性,推論補正,あいまいさ解消を対象とする5つの評価課題を提案する。
論文 参考訳(メタデータ) (2025-12-05T18:14:55Z) - PRISM-Physics: Causal DAG-Based Process Evaluation for Physics Reasoning [57.868248683256574]
PRISM-Physicsはプロセスレベルの評価フレームワークであり、複雑な物理推論問題のベンチマークである。
解は公式の有向非巡回グラフ(DAG)として表される。
その結果,評価フレームワークは人的専門家のスコアと一致していることがわかった。
論文 参考訳(メタデータ) (2025-10-03T17:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。