論文の概要: CFD-LLMBench: A Benchmark Suite for Evaluating Large Language Models in Computational Fluid Dynamics
- arxiv url: http://arxiv.org/abs/2509.20374v1
- Date: Fri, 19 Sep 2025 22:21:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.473674
- Title: CFD-LLMBench: A Benchmark Suite for Evaluating Large Language Models in Computational Fluid Dynamics
- Title(参考訳): CFD-LLMBench:計算流体力学における大規模言語モデル評価のためのベンチマークスイート
- Authors: Nithin Somasekharan, Ling Yue, Yadi Cao, Weichao Li, Patrick Emami, Pochinapeddi Sai Bhargav, Anurag Acharya, Xingyu Xie, Shaowu Pan,
- Abstract要約: LLM(Large Language Models)は、一般的なNLPタスクに対して強力な性能を示すが、複雑な物理系の数値実験の自動化におけるその有用性は未解明のままである。
CFDLLMBenchは,大学院レベルのCFD知識,CFDの数値的および物理的推論,CFDの文脈依存的な実装という,3つの主要な能力にまたがるLCM性能を総合的に評価するためのベンチマークスイートである。
- 参考スコア(独自算出の注目度): 13.16419723805434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated strong performance across general NLP tasks, but their utility in automating numerical experiments of complex physical system -- a critical and labor-intensive component -- remains underexplored. As the major workhorse of computational science over the past decades, Computational Fluid Dynamics (CFD) offers a uniquely challenging testbed for evaluating the scientific capabilities of LLMs. We introduce CFDLLMBench, a benchmark suite comprising three complementary components -- CFDQuery, CFDCodeBench, and FoamBench -- designed to holistically evaluate LLM performance across three key competencies: graduate-level CFD knowledge, numerical and physical reasoning of CFD, and context-dependent implementation of CFD workflows. Grounded in real-world CFD practices, our benchmark combines a detailed task taxonomy with a rigorous evaluation framework to deliver reproducible results and quantify LLM performance across code executability, solution accuracy, and numerical convergence behavior. CFDLLMBench establishes a solid foundation for the development and evaluation of LLM-driven automation of numerical experiments for complex physical systems. Code and data are available at https://github.com/NREL-Theseus/cfdllmbench/.
- Abstract(参考訳): LLM(Large Language Models)は、一般的なNLPタスクにおいて強力なパフォーマンスを示しているが、複雑な物理システムの数値的な実験、すなわち臨界かつ労働集約的なコンポーネントの自動化において、その実用性はまだ未熟である。計算流体力学(CFD)は、過去数十年にわたって計算科学の主要な研究成果として、LCMの科学的能力を評価する上で、ユニークな挑戦的なテストベッドを提供している。CFDLLMBenchは、CFDQuery、CFDCodeBench、FoamBenchの3つの補完的なコンポーネントからなるベンチマークスイートである。CFDLLMBenchは、CFDの知識、CFDの数値的および物理的理由付け、CFDのコンテキスト依存的な実装である。
実世界のCFDの実践に基づいて、我々のベンチマークでは、詳細なタスク分類と厳密な評価フレームワークを組み合わせることで、再現可能な結果を提供し、コード実行可能性、解精度、数値収束挙動のLLM性能を定量化する。
CFDLLMBenchは、複雑な物理系の数値実験におけるLCM駆動の自動化の開発と評価のための基盤を確立する。
コードとデータはhttps://github.com/NREL-Theseus/cfdllmbench/.comで公開されている。
関連論文リスト
- ChatCFD: An LLM-Driven Agent for End-to-End CFD Automation with Domain-Specific Structured Reasoning [4.098524616768554]
ChatCFDはOpenFOAMシミュレーションのための自動エージェントシステムである。
その4段階のパイプラインは、複雑なセットアップのために反復的なトライアル-リフレクション-リファインメントを可能にする。
ChatCFDは、協調マルチエージェントシステムのためのMPPベースのエージェントネットワークにおいて、モジュラーコンポーネントとして強力な可能性を示している。
論文 参考訳(メタデータ) (2025-05-28T08:43:49Z) - SIMCOPILOT: Evaluating Large Language Models for Copilot-Style Code Generation [5.880496520248658]
SIMCOPILOTは、対話型"コパイロット"スタイルのコーディングアシスタントとして、大規模言語モデル(LLM)の役割をシミュレートするベンチマークである。
ベンチマークには、Java(SIMCOPILOTJ)とPython用の専用のサブベンチマークが含まれている。
論文 参考訳(メタデータ) (2025-05-21T04:59:44Z) - Computational Reasoning of Large Language Models [51.629694188014064]
textbfTuring Machine Benchは,Large Language Models(LLM)による推論プロセスの実行能力を評価するベンチマークである。
TMBenchには、自己完結型および知識に依存しない推論、最小主義的な多段階構造、制御可能な難易度、チューリングマシンに基づく理論的基礎の4つの重要な特徴が組み込まれている。
論文 参考訳(メタデータ) (2025-04-29T13:52:47Z) - MAPS: Advancing Multi-Modal Reasoning in Expert-Level Physical Science [62.96434290874878]
現在のMLLM(Multi-Modal Large Language Models)は、一般的な視覚的推論タスクにおいて強力な機能を示している。
我々は,MLLMに基づく物理知覚とシミュレーションによるマルチモーダル科学推論(MAPS)という新しいフレームワークを開発した。
MAPSは、専門家レベルのマルチモーダル推論タスクを物理的知覚モデル(PPM)を介して物理図理解に分解し、シミュレータを介して物理的知識で推論する。
論文 参考訳(メタデータ) (2025-01-18T13:54:00Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - MetaOpenFOAM: an LLM-based multi-agent framework for CFD [11.508919041921942]
MetaOpenFOAMは、新しいマルチエージェントコラボレーションフレームワークである。
入力として自然言語のみを用いてCFDシミュレーションタスクを完了することを目的としている。
MetaGPTのアセンブリラインパラダイムのパワーを利用する。
論文 参考訳(メタデータ) (2024-07-31T04:01:08Z) - FLUID-LLM: Learning Computational Fluid Dynamics with Spatiotemporal-aware Large Language Models [15.964726158869777]
大規模言語モデル(LLM)は、顕著なパターン認識と推論能力を示している。
FLUID-LLMは,非定常流体力学を予測するために,事前学習LLMと事前認識符号化を組み合わせた新しいフレームワークである。
この結果から,FLUID-LLMは時間情報を事前学習したLLMに効果的に統合し,CFDタスク性能を向上させることが示唆された。
論文 参考訳(メタデータ) (2024-06-06T20:55:40Z) - UltraEval: A Lightweight Platform for Flexible and Comprehensive Evaluation for LLMs [74.1976921342982]
本稿では,ユーザフレンドリな評価フレームワークであるUltraEvalを紹介し,その軽量性,包括性,モジュール性,効率性を特徴とする。
その結果のコンポーザビリティにより、統一された評価ワークフロー内で、さまざまなモデル、タスク、プロンプト、ベンチマーク、メトリクスを自由に組み合わせることができる。
論文 参考訳(メタデータ) (2024-04-11T09:17:12Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - An Extensible Benchmark Suite for Learning to Simulate Physical Systems [60.249111272844374]
我々は、統一されたベンチマークと評価プロトコルへの一歩を踏み出すために、一連のベンチマーク問題を導入する。
本稿では,4つの物理系と,広く使用されている古典的時間ベースおよび代表的なデータ駆動手法のコレクションを提案する。
論文 参考訳(メタデータ) (2021-08-09T17:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。