論文の概要: SimulCost: A Cost-Aware Benchmark and Toolkit for Automating Physics Simulations with LLMs
- arxiv url: http://arxiv.org/abs/2603.20253v1
- Date: Wed, 11 Mar 2026 05:00:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:12.938041
- Title: SimulCost: A Cost-Aware Benchmark and Toolkit for Automating Physics Simulations with LLMs
- Title(参考訳): SimulCost: LLMによる物理シミュレーションを自動化するためのコスト意識ベンチマークとツールキット
- Authors: Yadi Cao, Sicheng Lai, Jiahe Huang, Yang Zhang, Zach Lawrence, Rohan Bhakta, Izzy F. Thomas, Mingyun Cao, Chung-Hao Tsai, Zihao Zhou, Yidong Zhao, Hao Liu, Alessandro Marinoni, Alexey Arefiev, Rose Yu,
- Abstract要約: 物理シミュレーションにおけるコスト依存パラメータチューニングをターゲットとした最初のベンチマークであるSimulCostを紹介する。
SimulCostは、LCMチューニングのコスト感受性パラメータと従来のスキャン手法の精度と計算コストを比較した。
各シミュレータのコストは解析的に定義され、プラットフォームに依存しない。
- 参考スコア(独自算出の注目度): 56.07550353240028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating LLM agents for scientific tasks has focused on token costs while ignoring tool-use costs like simulation time and experimental resources. As a result, metrics like pass@k become impractical under realistic budget constraints. To address this gap, we introduce SimulCost, the first benchmark targeting cost-sensitive parameter tuning in physics simulations. SimulCost compares LLM tuning cost-sensitive parameters against traditional scanning approach in both accuracy and computational cost, spanning 2,916 single-round (initial guess) and 1,900 multi-round (adjustment by trial-and-error) tasks across 12 simulators from fluid dynamics, solid mechanics, and plasma physics. Each simulator's cost is analytically defined and platform-independent. Frontier LLMs achieve 46--64% success rates in single-round mode, dropping to 35--54% under high accuracy requirements, rendering their initial guesses unreliable especially for high accuracy tasks. Multi-round mode improves rates to 71--80%, but LLMs are 1.5--2.5x slower than traditional scanning, making them uneconomical choices. We also investigate parameter group correlations for knowledge transfer potential, and the impact of in-context examples and reasoning effort, providing practical implications for deployment and fine-tuning. We open-source SimulCost as a static benchmark and extensible toolkit to facilitate research on improving cost-aware agentic designs for physics simulations, and for expanding new simulation environments. Code and data are available at https://github.com/Rose-STL-Lab/SimulCost-Bench.
- Abstract(参考訳): 科学タスクのためのLLMエージェントの評価は、シミュレーション時間や実験資源などのツール使用コストを無視しながら、トークンコストに重点を置いている。
その結果、現実的な予算制約の下で、pass@kのようなメトリクスは実用的ではありません。
このギャップに対処するために、物理学シミュレーションにおいてコスト感受性パラメータチューニングをターゲットとした最初のベンチマークであるSimulCostを紹介する。
SimulCostは、液体力学、固体力学、プラズマ物理学から12のシミュレータにまたがる2,916の単一ラウンド(初期推定)と1,900の多ラウンド(試行錯誤による調整)のタスクにまたがる、従来のスキャン手法と比較して、LCMチューニングのコスト感受性パラメータを精度と計算コストの両方で比較する。
各シミュレータのコストは解析的に定義され、プラットフォームに依存しない。
最前線のLSMはシングルラウンドモードで46~64%の成功率に達し、高い精度で35~54%まで低下し、特に高い精度のタスクにおいて最初の推測は信頼できないものとなった。
マルチラウンドモードは71-80%に向上するが、LCMは従来のスキャンよりも1.5-2.5倍遅いため、経済的には選択できない。
また、知識伝達ポテンシャルのパラメータ群相関や、文脈内例や推論努力の影響についても検討し、展開や微調整の実践的意義について考察した。
我々はSimulCostを静的なベンチマークおよび拡張可能なツールキットとしてオープンソースとして公開し、物理シミュレーションのコスト認識エージェント設計の改善と新しいシミュレーション環境の拡張に役立てる。
コードとデータはhttps://github.com/Rose-STL-Lab/SimulCost-Benchで公開されている。
関連論文リスト
- Mind the Sim2Real Gap in User Simulation for Agentic Tasks [101.69142591891234]
ユーザシミュレーションにおけるSim2Realのギャップを形式化し、実際の人間に対して$$$-benchプロトコルを実行する最初の研究を示す。
LLMシミュレータは過度に協調的であり、スタイリスティックに均一であり、現実的なフラストレーションや曖昧さを欠いている。
これらの知見は, LLMベースのユーザシミュレータをエージェント開発サイクルで使用する際の人間による検証の重要性を強調した。
論文 参考訳(メタデータ) (2026-03-11T19:12:31Z) - Simulating Environments with Reasoning Models for Agent Training [55.98861707136674]
トレーニング用の起動環境の構築は重く、脆く、進捗を制限します。
我々はSimia-SFTとSimia-RLの2つのフレームワークを提案する。
Simia-SFTとSimia-RLは、環境工学を使わずにスケーラブルなエージェントトレーニングを可能にする。
論文 参考訳(メタデータ) (2025-11-03T18:29:57Z) - G-Sim: Generative Simulations with Large Language Models and Gradient-Free Calibration [48.948187359727996]
G-Simは、厳密な経験的校正によるシミュレータ構築を自動化するハイブリッドフレームワークである。
信頼性のある因果的インフォームドシミュレータを生成し、データ効率を軽減し、堅牢なシステムレベルの介入を可能にする。
論文 参考訳(メタデータ) (2025-06-10T22:14:34Z) - Transfer learning for multifidelity simulation-based inference in cosmology [0.0]
ダークマターのみのN$-bodyシミュレーションの事前トレーニングは、高忠実度流体力学シミュレーションの必要な回数を8ドルから15ドルに削減する。
より安価なシミュレーションを活用することで,計算コストを大幅に削減しつつ,高忠実度モデルの性能と高精度な推論を可能にする。
論文 参考訳(メタデータ) (2025-05-27T14:04:30Z) - Cosmological Analysis with Calibrated Neural Quantile Estimation and Approximate Simulators [0.0]
我々は,多数の近似シミュレーションをトレーニングに利用し,少数の高忠実度シミュレーションをキャリブレーションに利用した新しいシミュレーションベース推論(SBI)手法を提案する。
概念の証明として、2次元暗黒物質密度写像から、z=0$で$k_rm maxsim1.5,h$/Mpcまでの距離で宇宙的パラメータを推定できることが示される。
キャリブレーション後部は、$sim104$ expensive Particle-Particle (PP) シミュレーションの直接トレーニングにより得られたものとよく一致するが、計算コストのごく一部で一致する。
論文 参考訳(メタデータ) (2024-11-22T05:53:46Z) - INSIGHT: Universal Neural Simulator for Analog Circuits Harnessing Autoregressive Transformers [13.94505840368669]
INSIGHTはアナログフロントエンド設計自動化ループにおける効果的なユニバーサルニューラルネットワークシミュレータである。
アナログ回路の性能指標を数マイクロ秒の推論時間で正確に予測する。
論文 参考訳(メタデータ) (2024-07-10T03:52:53Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - AutoSimulate: (Quickly) Learning Synthetic Data Generation [70.82315853981838]
目的の新たな微分可能近似に基づく最適な合成データ生成法を提案する。
提案手法は,学習データ生成の高速化(最大50Times$)と,実世界のテストデータセットの精度向上(+8.7%$)を実現している。
論文 参考訳(メタデータ) (2020-08-16T11:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。