論文の概要: PDEAgent-Bench: A Multi-Metric, Multi-Library Benchmark for PDE Solver Generation
- arxiv url: http://arxiv.org/abs/2605.09636v1
- Date: Sun, 10 May 2026 16:25:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.34514
- Title: PDEAgent-Bench: A Multi-Metric, Multi-Library Benchmark for PDE Solver Generation
- Title(参考訳): PDEAgent-Bench: PDEソルバー生成のためのマルチメトリック・マルチライブラリベンチマーク
- Authors: Zhen Hang, Yushan Yashengjiang, Junhui Li, Huanshuo Dong, Yang Wei, Zhezheng Hao, Jiangtao Ma, Songlin Bai, Haozhong Kai, Xihang Yue, Gangzong Si, Dongming Jiang, Chao Yao, Zhanhua Hu, Jiangqing Zhang, Pengwei Liu, Yaomin Shen, Xingyu Ren, Lei Liu, Zikang Xu, Han Li, Qingsong Yao, Hande Dong, Hong Wang,
- Abstract要約: PDEAgent-BenchはPDE-to-solverコード生成のための最初のマルチメトリック・マルチライブラリベンチマークである。
PDEAgent-Benchには6つの数学カテゴリと11のPDEファミリーに645のインスタンスがあり、共通FEMライブラリはDOLFINx、Firedrake、 deal.IIである。
実験によると、モデルはしばしば実行可能なコードを生成することができるが、精度と効率の要求が実行されれば、そのパスレートは大幅に低下する。
- 参考スコア(独自算出の注目度): 31.813357785544408
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: PDE-to-solver code generation aims to automatically synthesize executable numerical solvers from partial differential equation (PDE) specifications. This task requires not only understanding the mathematical structure of PDEs, but also selecting appropriate discretization schemes and solver configurations, and correctly implementing the resulting formulations in finite-element method (FEM) libraries. Existing code generation benchmarks mainly evaluate syntactic correctness, or success on predefined test cases. To our knowledge, there is currently no publicly available benchmark specifically for PDE-to-solver code generation, and general-purpose code benchmarks do not fully capture the unique challenges of numerical PDE solution, such as ensuring solver accuracy, efficiency, and compatibility with professional FEM libraries. We introduce PDEAgent-Bench, to the best of our knowledge, the first multi-metric, multi-library benchmark for PDE-to-solver code generation. PDEAgent-Bench contains 645 instances across 6 mathematical categories and 11 PDE families, with common FEM libraries for DOLFINx, Firedrake, and deal.II. Each instance provides an agent-facing problem specification, a reference solution on a prescribed evaluation grid, and case-specific accuracy and runtime targets. PDEAgent-Bench adopts a staged evaluation framework in which generated solvers must sequentially pass executability, numerical accuracy, and computational efficiency checks. Experiments with representative LLMs and code agents show that models can often produce runnable code, but their pass rate drops substantially once accuracy and efficiency requirements are enforced. These results indicate that current agents remain limited in producing numerically reliable and efficient PDE solvers, and that PDEAgent-Bench provides a reproducible testbed grounded in the practical requirements of numerical PDE solving.
- Abstract(参考訳): PDE-to-solverコード生成は、偏微分方程式(PDE)仕様から実行可能な数値ソルバを自動的に合成することを目的としている。
このタスクは、PDEの数学的構造を理解するだけでなく、適切な離散化スキームとソルバ構成を選択し、有限要素法(FEM)ライブラリで結果の定式化を正しく実装する必要がある。
既存のコード生成ベンチマークは、主に構文的正確性、または事前に定義されたテストケースでの成功を評価する。
私たちの知る限り、PDE-to-solverコード生成専用のベンチマークは公開されていないが、汎用コードベンチマークは、解決器の精度、効率、プロのFEMライブラリとの互換性を保証するなど、数値PDEソリューションのユニークな課題を完全には捉えていない。
PDEAgent-BenchはPDE-to-solverコード生成のための最初のマルチメトリック・マルチライブラリベンチマークである。
PDEAgent-Benchには6つの数学カテゴリと11のPDEファミリーに645のインスタンスがあり、共通FEMライブラリはDOLFINx、Firedrake、 deal.IIである。
各インスタンスは、エージェントが対象とする問題仕様、所定の評価グリッド上の参照ソリューション、ケース固有の精度と実行時のターゲットを提供する。
PDEAgent-Benchは、生成したソルバが実行可能性、数値精度、計算効率チェックを順次パスしなければならない段階評価フレームワークを採用している。
代表的なLCMやコードエージェントによる実験では、モデルはしばしば実行可能なコードを生成することができるが、精度と効率の要求が実行されればパスレートは大幅に低下する。
以上の結果から, PDEAgent-Benchは数値的PDE解法を基礎とした再現性テストベッドを提供する。
関連論文リスト
- OpInf-LLM: Parametric PDE Solving with LLMs via Operator Inference [8.112335572297928]
大規模言語モデル(LLM)は、コード生成、シンボリック推論、ツール使用において強力な機能を示している。
演算子推論に基づく LLM PDE 問題解決フレームワーク OpInf-LLM を提案する。
論文 参考訳(メタデータ) (2026-02-02T00:04:50Z) - PDE-Agent: A toolchain-augmented multi-agent framework for PDE solving [50.54386756067269]
偏微分方程式 (Partial Differential Equations, PDE) は、工学と科学研究の基盤である。
PDE解決の従来の手法は、手作業のセットアップとドメインの専門知識に依存するため、煩雑である。
本研究では, PDE を LLM 駆動エージェントによるツール呼び出しとして扱う。
PDE-Agentはツールチェーンで拡張された最初のマルチエージェントコラボレーションフレームワークです。
論文 参考訳(メタデータ) (2025-12-18T06:02:50Z) - Generalizing PDE Emulation with Equation-Aware Neural Operators [1.9410267062889204]
偏微分方程式(PDE)の解法は、従来の数値法では違法に高価である。
ディープラーニングベースのサロゲートモデルは通常、固定パラメータを持つ単一のPDEを専門とする。
本稿では,PDEを一般化する方程式認識エミュレーションの枠組みを提案する。
論文 参考訳(メタデータ) (2025-11-12T20:40:05Z) - PDE-SHARP: PDE Solver Hybrids through Analysis and Refinement Passes [12.096472648029204]
我々は、安価なLLM推論によって高価な科学計算を置き換えることで計算コストを削減するフレームワークであるPDE-SHARPを紹介する。
PDE-SHARPは60-75%の計算精度で優れた解法精度を実現する。
高品質な解法を生成するためには, PDE-SHARP は平均で 13 未満の解法評価を必要とする。
論文 参考訳(メタデータ) (2025-10-31T18:38:05Z) - CodePDE: An Inference Framework for LLM-driven PDE Solver Generation [57.15474515982337]
偏微分方程式(PDE)は物理系のモデリングの基本である。
従来の数値解法は専門家の知識に頼って実装し、計算コストがかかる。
大規模言語モデルを用いてPDEソルバを生成するための最初の推論フレームワークであるCodePDEを紹介する。
論文 参考訳(メタデータ) (2025-05-13T17:58:08Z) - Unisolver: PDE-Conditional Transformers Towards Universal Neural PDE Solvers [53.79279286773326]
我々は、多様なデータに基づいて訓練され、多様なPDEで条件付けされた新しいトランスフォーマーモデルUnisolverを提案する。
Unisolverは3つの挑戦的な大規模ベンチマークで一貫した最先端を実現し、優れたパフォーマンスと一般化性を示している。
論文 参考訳(メタデータ) (2024-05-27T15:34:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。