論文の概要: gwBenchmarks: Stress-Testing LLM Agents on High-Precision Gravitational Wave Astronomy
- arxiv url: http://arxiv.org/abs/2605.11269v1
- Date: Mon, 11 May 2026 21:47:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.447399
- Title: gwBenchmarks: Stress-Testing LLM Agents on High-Precision Gravitational Wave Astronomy
- Title(参考訳): gwBenchmarks: 高精度重力波天文学におけるストレス試験LDMエージェント
- Authors: Tousif Islam, Digvijay Wadekar, Zihan Zhou,
- Abstract要約: 現代の重力波天文学は、しばしば何ヶ月もの大学院レベルの努力を必要とするモデリングタスクに依存している。
我々は、最先端のLCM符号化エージェントが、このようなエンドツーエンドの科学的モデリングを行うことができるかどうかを考察する。
重力波解析計算と数値シミュレーションに基礎を置く8つのタスクの組であるgwBenchmarksを紹介した。
- 参考スコア(独自算出の注目度): 2.316169407465118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern gravitational wave astronomy relies on modeling tasks that often require months of graduate-level effort, including building fast waveform surrogates from expensive numerical relativity simulations, modeling orbital dynamics of black holes, fitting merger remnant properties and constructing template banks. These problems demand extreme precision to support detection and parameter inference, with state-of-the-art models achieving $\lesssim 10^{-4}$ relative error. We study whether state-of-the-art LLM coding agents can perform such end-to-end scientific modeling, where success requires constructing models with stringent accuracy criteria and reasoning about physical systems. We introduce gwBenchmarks, a suite of eight tasks grounded in gravitational wave analytic calculations and numerical simulations collectively representing over $10^8$ core-hours of compute. The tasks span interpolation, regression, and high-dimensional time-series modeling, requiring a combination of numerical methods, machine learning, and physics-informed approaches. In preliminary experiments, agents frequently relied on proxy metrics, partial evaluation, or fabricated results to spuriously complete tasks. We therefore implement an external pre-defined framework to gauge agent progress. Evaluating twelve coding agents, we find no consistent winner. On the easiest task, multiple agents converge to the same cubic spline solution, with one rediscovering a coordinate transformation widely used in the literature. On harder tasks like analytic waveform modeling, all agents fall 1-2 orders of magnitude short of domain requirements and exhibit systematic failures, including metric misuse, constraint violations, and result fabrication. Our code, data, and website are publicly available.
- Abstract(参考訳): 現代の重力波天文学は、高額な数値相対性理論から高速波形サロゲートを構築すること、ブラックホールの軌道動力学をモデル化すること、合併残差特性の整合、テンプレートバンクの構築など、何ヶ月にもわたって必要なモデリングタスクに依存している。
これらの問題は、検出とパラメータ推論をサポートするために極端な精度を必要とし、最先端のモデルで$\lesssim 10^{-4}$相対誤差を達成している。
我々は,最先端のLCM符号化エージェントが,厳密な精度基準を持つモデルの構築と物理系の推論を必要とするようなエンドツーエンドの科学的モデリングを行うことができるかどうかを考察する。
本稿では,重力波解析計算と数値シミュレーションに基礎を置く8つのタスクの組であるgwBenchmarksを紹介した。
タスクは補間、回帰、高次元時系列モデリングに及び、数値的手法、機械学習、物理インフォームドアプローチの組み合わせを必要とする。
予備実験では、エージェントはプロキシメトリクス、部分評価、あるいは製造結果にしばしば依存して、驚くほど完全なタスクをこなした。
したがって、エージェントの進捗を測定するために、外部で事前に定義されたフレームワークを実装します。
12のコーディングエージェントを評価すると、一貫した勝者は見つからない。
最も簡単なタスクでは、複数のエージェントが同じ立方体スプライン解に収束し、文献で広く使われている座標変換を再発見する。
解析波形モデリングのような難しいタスクでは、すべてのエージェントはドメイン要件から1~2桁も劣り、メートル法ミスユース、制約違反、結果生成などの体系的な失敗を示す。
私たちのコード、データ、ウェブサイトは公開されています。
関連論文リスト
- Discovery of Interpretable Surrogates via Agentic AI: Application to Gravitational Waves [0.0]
シミュレーションデータから直接解釈可能な解析サロゲートを構成する大言語モデル(LLM)ベースのワークフローである textttGWAgent を提案する。
物理インフォームド・ドメイン・アンサッツをエージェントに提供することにより,出力モデルの精度が大幅に向上することを示す。
その結果、解析的サロゲートは6.9times10-4$という中央値のLIGOミスマッチと、波形評価における$sim 8.4times$のスピードアップを達成した。
論文 参考訳(メタデータ) (2026-05-11T22:09:34Z) - Stargazer: A Scalable Model-Fitting Benchmark Environment for AI Agents under Astrophysical Constraints [48.80158223838359]
我々は、動的で反復的な物理地上モデル適合タスクに基づいてAIエージェントを評価するスケーラブルな環境であるStargazerを紹介した。
Stargazerは3つの難題にまたがる120のタスクで構成されており、20の実際のアーカイブケースを含んでいる。
8つのフロンティアエージェントを評価した結果,数値最適化と物理的制約への固執のギャップが明らかとなった。
論文 参考訳(メタデータ) (2026-04-17T03:38:50Z) - From Paper to Program: Accelerating Quantum Many-Body Algorithm Development via a Multi-Stage LLM-Assisted Workflow [4.866193347313755]
大規模言語モデル(LLM)は高速にコードを生成することができるが、科学的アルゴリズムでは信頼性が低い。
本稿では,理論抽出,形式仕様,コード実装を分離した多段階LLM支援ワークフローを提案する。
論文 参考訳(メタデータ) (2026-04-05T12:12:54Z) - Hierarchical Inference and Closure Learning via Adaptive Surrogates for ODEs and PDEs [15.38864225184245]
逆問題は、データに合うようにモデルを校正するタスクである。
我々は、異なるが関連する物理システムのコレクションからのデータを活用するための原則的方法論を開発する。
我々は、MLベースのクロージャモデルという形で、共有未知のダイナミクスを学習する。
論文 参考訳(メタデータ) (2026-03-04T10:30:08Z) - An Agentic Framework for Autonomous Materials Computation [70.24472585135929]
大規模言語モデル(LLM)は、科学的発見を加速するための強力なツールとして登場した。
近年の進歩はLLMをエージェントフレームワークに統合し、複雑な科学実験のための検索、推論、ツールの使用を可能にしている。
本稿では,第一原理計算の信頼性向上を目的としたドメイン特化エージェントを提案する。
論文 参考訳(メタデータ) (2025-12-22T15:03:57Z) - SciML Agents: Write the Solver, Not the Solution [69.5021018644143]
敵の"ミスリーディング"問題の診断データセットと,1,000種類のODEタスクの大規模ベンチマークという,2つの新しいデータセットを紹介した。
オープンおよびクローズドソース LLM モデルについて, (i) 誘導型とガイド型, (ii) オフ・ザ・シェルフ対微調整型という2つの軸に沿って評価した。
予備的な結果は、慎重なプロンプトと微調整により、単純なODE問題を確実に解決できる特殊なLLMエージェントが得られることを示唆している。
論文 参考訳(メタデータ) (2025-09-12T02:53:57Z) - ModelingAgent: Bridging LLMs and Mathematical Modeling for Real-World Challenges [72.19809898215857]
ModelingBenchは、様々な領域にわたる数学モデリングの競争から、現実に着想を得たオープンエンドの問題を特徴付ける新しいベンチマークである。
これらのタスクには、自然言語を形式的な数学的定式化に翻訳し、適切なツールを適用し、構造化された防御可能なレポートを生成する必要がある。
ツール使用をコーディネートするマルチエージェントフレームワークである ModelingAgent も紹介します。
論文 参考訳(メタデータ) (2025-05-21T03:33:23Z) - Geometry Matters: Benchmarking Scientific ML Approaches for Flow Prediction around Complex Geometries [23.111935712144277]
複雑な幾何学体を取り巻く流体力学の迅速かつ正確なシミュレーションは、様々な工学的・科学的応用において重要である。
科学機械学習(SciML)はかなりの可能性を示してきたが、この分野のほとんどの研究は単純な幾何学に限られている。
本稿では,複雑な地形上での流動予測のための多種多様なSciMLモデルのベンチマークにより,このギャップを解消する。
論文 参考訳(メタデータ) (2024-12-31T00:23:15Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。