論文の概要: FEM-Bench: A Structured Scientific Reasoning Benchmark for Evaluating Code-Generating LLMs
- arxiv url: http://arxiv.org/abs/2512.20732v1
- Date: Tue, 23 Dec 2025 19:40:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.58226
- Title: FEM-Bench: A Structured Scientific Reasoning Benchmark for Evaluating Code-Generating LLMs
- Title(参考訳): FEM-Bench: コード生成LLMの評価のための構造化科学推論ベンチマーク
- Authors: Saeed Mohammadzadeh, Erfan Hamdi, Joel Shor, Emma Lejeune,
- Abstract要約: 有限要素法(FEM)および関連コードを生成するためのLCMの能力を評価するためのベンチマークであるFEM-Benchを紹介する。
これらのタスクは、その分野に存在する複雑さのごく一部を表現しながら、不可欠な数値および物理モデリングの課題を捉えている。
関数記述における最高のパフォーマンスモデルであるGemini 3 Proは、少なくとも1回は30/33タスクを、5回ごとに26/33タスクを完了した。
- 参考スコア(独自算出の注目度): 2.3052479658146323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As LLMs advance their reasoning capabilities about the physical world, the absence of rigorous benchmarks for evaluating their ability to generate scientifically valid physical models has become a critical gap. Computational mechanics, which develops and applies mathematical models and numerical methods to predict the behavior of physical systems under forces, deformation, and constraints, provides an ideal foundation for structured scientific reasoning evaluation. Problems follow clear mathematical structure, enforce strict physical and numerical constraints, and support objective verification. The discipline requires constructing explicit models of physical systems and reasoning about geometry, spatial relationships, and material behavior, connecting directly to emerging AI goals in physical reasoning and world modeling. We introduce FEM-Bench, a computational mechanics benchmark designed to evaluate the ability of LLMs to generate correct finite element method (FEM) and related code. FEM-Bench 2025 contains a suite of introductory but nontrivial tasks aligned with material from a first graduate course on computational mechanics. These tasks capture essential numerical and physical modeling challenges while representing only a small fraction of the complexity present in the discipline. Despite their simplicity, state-of-the-art LLMs do not reliably solve all of them. In a five attempt run, the best performing model at function writing, Gemini 3 Pro, completed 30/33 tasks at least once and 26/33 tasks all five times. The best performing model at unit test writing, GPT-5, had an Average Joint Success Rate of 73.8%. Other popular models showed broad performance variation. FEM-Bench establishes a structured foundation for evaluating AI-generated scientific code, and future iterations will incorporate increasingly sophisticated tasks to track progress as models evolve.
- Abstract(参考訳): LLMが物理世界に関する推論能力を推し進めるにつれ、科学的に有効な物理モデルを生成する能力を評価するための厳密なベンチマークが欠如していることは、重大なギャップとなっている。
力、変形、制約の下での物理系の挙動を予測するために数学的モデルと数値的手法を開発し、応用する計算力学は、構造化された科学的推論評価の理想的な基礎を提供する。
問題は明確な数学的構造に従い、厳密な物理的および数値的な制約を強制し、客観的な検証をサポートする。
この規律は、物理システムの明示的なモデルを構築し、幾何学、空間的関係、物質的挙動を推論し、物理推論や世界モデリングにおいて、新たなAI目標に直接接続する必要がある。
本稿では,有限要素法(FEM)とその関連コードを生成するLLMの能力を評価するための計算力学ベンチマークであるFEM-Benchを紹介する。
FEM-Bench 2025は、計算力学の最初の卒業コースの材料と整合する一連の入門的だが非自明なタスクを含んでいる。
これらのタスクは、その分野に存在する複雑さのごく一部を表現しながら、不可欠な数値および物理モデリングの課題を捉えている。
その単純さにもかかわらず、最先端のLLMはそれら全てを確実に解決するわけではない。
5回の試行で、関数記述における最高のパフォーマンスモデルであるGemini 3 Proは、少なくとも1回は30/33タスクを、5回ごとに26/33タスクを完了した。
単体テストの書き込みにおける最高のパフォーマンスモデルであるGPT-5は平均的な共同成功率73.8%であった。
他の人気モデルは幅広い性能の変動を示した。
FEM-Benchは、AI生成した科学的コードを評価するための構造化された基盤を確立し、将来のイテレーションでは、モデルを進化させるにつれて進歩を追跡するために、ますます洗練されたタスクが組み込まれる。
関連論文リスト
- PRiSM: An Agentic Multimodal Benchmark for Scientific Reasoning via Python-Grounded Evaluation [7.0748516420242495]
PRiSMは、基底Pythonコードによる科学的推論を評価するための、合成、完全に動的、マルチモーダルベンチマークである。
PRiSMには24750以上の大学レベルの物理学と数学の問題が含まれており、スケーラブルなエージェントベースのパイプラインであるPrismAgentを活用しています。
本稿では,摂動,記号型プログラム合成,ロバスト性,推論補正,あいまいさ解消を対象とする5つの評価課題を提案する。
論文 参考訳(メタデータ) (2025-12-05T18:14:55Z) - PRISM-Physics: Causal DAG-Based Process Evaluation for Physics Reasoning [57.868248683256574]
PRISM-Physicsはプロセスレベルの評価フレームワークであり、複雑な物理推論問題のベンチマークである。
解は公式の有向非巡回グラフ(DAG)として表される。
その結果,評価フレームワークは人的専門家のスコアと一致していることがわかった。
論文 参考訳(メタデータ) (2025-10-03T17:09:03Z) - Probing the Critical Point (CritPt) of AI Reasoning: a Frontier Physics Research Benchmark [49.42250115889234]
本研究では,研究レベルの推論タスクにおいて,大規模言語モデル(LLM)をテストするために設計された最初のベンチマークを示す。
CritPtは71の複合研究課題からなる。
現在最先端のLCMは、孤立したチェックポイントを早期に保証しているが、完全な研究スケールの課題を確実に解決できるには程遠い。
論文 参考訳(メタデータ) (2025-09-30T17:34:03Z) - ABench-Physics: Benchmarking Physical Reasoning in LLMs via High-Difficulty and Dynamic Physics Problems [21.278539804482012]
大規模言語モデル(LLM)は、数学やプログラミングのような領域で顕著なパフォーマンスを示している。
物理学は、正確な計算だけでなく、深い概念的理解と物理モデリングスキルも要求する固有の課題を提起する。
既存のベンチマークは、制限された難易度、複数選択フォーマット、静的評価設定のために、しばしば不足する。
論文 参考訳(メタデータ) (2025-07-07T08:43:56Z) - Proof or Bluff? Evaluating LLMs on 2025 USA Math Olympiad [4.573289946657861]
我々は2025年のUSAMOの6つの問題に対する推論モデルを評価する。
Gemini-2.5-Proのみが25%という非自明なスコアを達成している。
以上の結果から,現在のLLMは厳密な数学的推論作業には不十分であることが示唆された。
論文 参考訳(メタデータ) (2025-03-27T19:21:05Z) - MAPS: Advancing Multi-Modal Reasoning in Expert-Level Physical Science [62.96434290874878]
現在のMLLM(Multi-Modal Large Language Models)は、一般的な視覚的推論タスクにおいて強力な機能を示している。
我々は,MLLMに基づく物理知覚とシミュレーションによるマルチモーダル科学推論(MAPS)という新しいフレームワークを開発した。
MAPSは、専門家レベルのマルチモーダル推論タスクを物理的知覚モデル(PPM)を介して物理図理解に分解し、シミュレータを介して物理的知識で推論する。
論文 参考訳(メタデータ) (2025-01-18T13:54:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。