論文の概要: Your Simulation Runs but Solves the Wrong Physics: PDE-Grounded Intent Verification for LLM-Generated Multiphysics Simulation Code
- arxiv url: http://arxiv.org/abs/2605.09360v1
- Date: Sun, 10 May 2026 06:19:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.212636
- Title: Your Simulation Runs but Solves the Wrong Physics: PDE-Grounded Intent Verification for LLM-Generated Multiphysics Simulation Code
- Title(参考訳): LLM生成多物理シミュレーションコードのためのPDE-Grounded Intent Verification
- Authors: Zhenghan Song, Yulong Liu, Cheng Wan, Chenjun Li, Lingfu Liu, Yunyi Li, Congcong Yuan,
- Abstract要約: LLM生成コードの実行に基づく評価は、成功した実行を正確性のためのプロキシとして暗黙的に扱う。
目的物理学と生成したコードとのミスマッチを理解世代間ギャップと呼ぶ。
我々は、決定論的違反レポートを用いて、生成したコードを反復的に修正するPDE-grounded refinement loopを開発する。
- 参考スコア(独自算出の注目度): 5.078683704008023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Execution-based evaluation of LLM-generated code implicitly treats successful execution as a proxy for correctness. In scientific simulation, this proxy is insufficient: a generated input file can run, mesh, and converge while encoding governing equations that differ from the user's intent. We call this mismatch between intended physics and generated code the comprehension-generation gap. We instantiate this in MOOSE, where Kernel and BC objects map compositionally to weak-form residual terms, enabling deterministic reconstruction of the encoded PDE and comparison against an intended contract. We formalize this comparison as the Intent Fidelity Score (IFS), a structural metric covering governing terms, BCs, ICs, coefficients, and time scheme. Building on IFS, we develop a PDE-grounded refinement loop that uses deterministic violation reports to correct generated code iteratively. We evaluate on MooseBench, a 220-case multiphysics benchmark with PDE-level ground truth released with this work. On this benchmark, our method consistently improves mean IFS over direct generation, with gains concentrated on hard cases. On the subset where direct generation falls below IFS 0.7, refinement adds +0.22 to +0.41 absolute IFS. In the deployment audit, execution-only repair improves execution success while leaving 39-40% of all 220 cases runnable but still solving the wrong physics across the three main deployment-audit models, exposing executability and intent fidelity as separable failure modes. Static proof-of-concept experiments on four PDE-oriented DSLs (UFL/FEniCS, FreeFEM, FiPy, and Devito) suggest that the reconstruction-and-comparison pattern extends beyond MOOSE. These findings reinforce that executable simulation code should be verified against the mathematical structure it is intended to encode, not accepted on execution alone.
- Abstract(参考訳): LLM生成コードの実行に基づく評価は、成功した実行を正確性のためのプロキシとして暗黙的に扱う。
科学シミュレーションでは、このプロキシは不十分である: 生成された入力ファイルは、ユーザの意図と異なる制御方程式を符号化しながら、実行し、メッシュし、収束することができる。
目的物理学と生成したコードとのミスマッチを理解世代間ギャップと呼ぶ。
我々はMOOSEでこれをインスタンス化し、 Kernel と BC のオブジェクトは構成的に弱形式残項にマッピングし、符号化された PDE を決定論的に再構成し、意図した契約との比較を可能にする。
Intent Fidelity Score (IFS, Intent Fidelity Score) は、統治用語、BC、IC、係数、時間スキームを含む構造指標である。
IFSをベースとして,決定論的違反レポートを用いて生成したコードを反復的に修正するPDEグラウンド改良ループを開発した。
本研究は,PDEレベル基底真理を持つ220ケースのマルチフィジカルベンチマークであるMooseBenchについて検討した。
このベンチマークでは, 直接発生よりも平均IPSを常に改善し, ハードケースに集中してゲインを得る。
直接発生がIFS 0.7を下回る部分集合では、改良は+0.22 を +0.41 絶対 IFS に付加する。
デプロイメント監査では、実行のみの修復が実行可能な220のケースの39~40%を残しながら、実行可能な障害モードとして実行可能性とインテント忠実さを露呈して、3つのデプロイメント監査モデルの間違った物理を解決している。
4つのPDE指向DSL(UFL/FEniCS, FreeFEM, FiPy, Devito)の静的な概念実証実験は、再構成・比較パターンがMOOSEを超えて広がることを示唆している。
これらの結果は、実行時にのみ受け入れられるのではなく、エンコードすることを意図した数学的構造に対して実行可能なシミュレーションコードを検証すべきであることを裏付けている。
関連論文リスト
- PDEAgent-Bench: A Multi-Metric, Multi-Library Benchmark for PDE Solver Generation [31.813357785544408]
PDEAgent-BenchはPDE-to-solverコード生成のための最初のマルチメトリック・マルチライブラリベンチマークである。
PDEAgent-Benchには6つの数学カテゴリと11のPDEファミリーに645のインスタンスがあり、共通FEMライブラリはDOLFINx、Firedrake、 deal.IIである。
実験によると、モデルはしばしば実行可能なコードを生成することができるが、精度と効率の要求が実行されれば、そのパスレートは大幅に低下する。
論文 参考訳(メタデータ) (2026-05-10T16:25:43Z) - LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation [75.05397479715576]
大規模言語モデル(LLM)とエージェントは有望な進歩を示しているが、その真の能力と失敗モードは未だ不明である。
CプログラムのためのLCMおよびエージェントベースの形式仕様生成に関する、最初の体系的および汚染に配慮した研究を提案する。
論文 参考訳(メタデータ) (2026-05-02T11:31:33Z) - CoDe-R: Refining Decompiler Output with LLMs via Rationale Guidance and Adaptive Inference [10.71961188176124]
バイナリ逆コンパイルは、削除された実行ファイルから高レベルのソースコードを再構築することを目的とした、重要なリバースエンジニアリングタスクである。
大規模言語モデル(LLM)は、最近、約束を示すが、しばしば「科学的幻覚」と「セマンティックなミスアライメント」に悩まされる。
本稿では,2段階の軽量コード精錬フレームワークであるCoDe-Rを提案する。
論文 参考訳(メタデータ) (2026-04-14T15:58:38Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - AutoMOOSE: An Agentic AI for Autonomous Phase-Field Simulation [0.0]
AutoMOOSEは、ひとつの自然言語プロンプトから完全なシミュレーションライフサイクルを編成するエージェントフレームワークである。
MOOSEの入力ファイルは、人間の専門家参照と正確に一致する12のブロックのうち6つで、機能的に等価である。
インテント、有限要素実行、そして人間による検証のないアレニウス運動論にまたがる、エンドツーエンドの物理的整合性チェックを実行する。
論文 参考訳(メタデータ) (2026-03-22T00:11:19Z) - Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models [96.0074341403456]
LLM推論を改善するための実用的な方法として、推論時計算が再導入されている。
テスト時間スケーリング(TTS)アルゴリズムの多くは、自動回帰デコーディングに依存している。
そこで我々は,dLLM のための効率的な TTS フレームワーク Prism を提案する。
論文 参考訳(メタデータ) (2026-02-02T09:14:51Z) - You Only Need Your Transformer 25% of the Time: Meaning-First Execution for Eliminating Unnecessary Inference [0.0]
本稿では,このフレームワークを実装したコントロールプレーンアーキテクチャであるMeaning-First Execution (MFEE)を紹介する。
MFEEは78.1%の実行削減を実現し、呼び出された実行に対する100%の正確なマッチ等価性を維持している。
論文 参考訳(メタデータ) (2025-12-29T08:03:52Z) - INC: An Indirect Neural Corrector for Auto-Regressive Hybrid PDE Solvers [61.84396402100827]
本稿では,学習した補正を支配方程式に統合する間接ニューラルコレクタ(mathrmINC$)を提案する。
$mathrmINC$は、$t-1 + L$の順番でエラー増幅を減らし、$t$はタイムステップ、$L$はリプシッツ定数である。
大規模なベンチマークで$mathrmINC$をテストし、1Dカオスシステムから3D乱流まで、多くの異なる解法、神経バックボーン、テストケースをカバーした。
論文 参考訳(メタデータ) (2025-11-16T20:14:28Z) - Pseudo-Simulation for Autonomous Driving [66.1981253104508]
既存の自動運転車(AV)の評価パラダイムは、重大な制限に直面している。
現実世界の評価は、安全上の懸念と現実主義の欠如のためにしばしば困難である。
オープンループ評価は、一般的に複合的なエラーを見落としているメトリクスに依存する。
論文 参考訳(メタデータ) (2025-06-04T17:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。