論文の概要: Can Coding Agents Reproduce Findings in Computational Materials Science?
- arxiv url: http://arxiv.org/abs/2605.00803v1
- Date: Fri, 01 May 2026 17:42:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:29.030784
- Title: Can Coding Agents Reproduce Findings in Computational Materials Science?
- Title(参考訳): 符号化エージェントは計算材料科学の発見を再現できるのか?
- Authors: Ziyang Huang, Yi Cao, Ali K. Shargh, Jing Luo, Ruidong Mei, Mohd Zaki, Zhan Liu, Wyatt Bunstine, William Jurayj, Somdatta Goswami, Tyrel McQueen, Michael Shields, Jaafar El-Awady, Paulette Clancy, Benjamin Van Durme, Nicholas Andrews, William Walden, Daniel Khashabi,
- Abstract要約: 本稿では,大規模言語モデルの科学的主張を再現する能力を評価するためのベンチマークであるAutoMatを紹介する。
課題を専門とする専門家と緊密に連携することで、実際の材料科学論文からの一連の主張をキュレートし、コーディングエージェントがエンドツーエンドのワークフローを回復し実行できるかどうかを検証します。
結果、現在のLSMベースのエージェントはAutoMatの全体的な成功率を低くし、最も優れた設定は54.1%に過ぎなかった。
- 参考スコア(独自算出の注目度): 49.254975563645786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models are increasingly deployed as autonomous coding agents and have achieved remarkably strong performance on software engineering benchmarks. However, it is unclear whether such success transfers to computational scientific workflows, where tasks require not only strong coding ability, but also the ability to navigate complex, domain-specific procedures and to interpret results in the context of scientific claims. To address this question, we present AutoMat, a benchmark for evaluating LLM-based agents' ability to reproduce claims from computational materials science. AutoMat poses three interrelated challenges: recovering underspecified computational procedures, navigating specialized toolchains, and determining whether the resulting evidence supports a claim. By working closely with subject matter experts, we curate a set of claims from real materials science papers to test whether coding agents can recover and execute the end-to-end workflow needed to support (or undermine) such claims. We then evaluate multiple representative coding agent settings across several foundation models. Our results show that current LLM-based agents obtain low overall success rates on AutoMat, with the best-performing setting achieving a success rate of only 54.1%. Error analysis further reveals that agents perform worst when workflows must be reconstructed from paper text alone and that they fail primarily due to incomplete procedures, methodological deviations, and execution fragility. Taken together, these findings position AutoMat as both a benchmark for computational scientific reproducibility and a tool for diagnosing the current limitations of agentic systems in AI-for-science settings.
- Abstract(参考訳): 大規模言語モデルは、自律的なコーディングエージェントとしてますますデプロイされ、ソフトウェアエンジニアリングのベンチマークで驚くほど高いパフォーマンスを達成しています。
しかし、そのような成功が強力なコーディング能力だけでなく、複雑なドメイン固有の手順をナビゲートし、科学的主張の文脈で結果を解釈する能力を必要とする計算科学ワークフローに移行するかどうかは不明である。
この問題に対処するために,計算材料科学からの請求を再現するLSMエージェントの能力を評価するベンチマークであるAutoMatを提案する。
AutoMatは、未特定の計算手順を回復し、特殊なツールチェーンをナビゲートし、結果のエビデンスがクレームをサポートするかどうかを判断する、という3つの相互関連課題を提起する。
課題の専門家と密接に協力することで、我々は、実際の材料科学論文からの一連のクレームをキュレートし、コーディングエージェントがそのようなクレームをサポートする(または弱体化させる)ために必要なエンドツーエンドワークフローを回復し実行できるかを検証します。
次に、複数の基礎モデルにまたがる複数の代表的符号化エージェント設定を評価する。
以上の結果から,現在のLCMをベースとしたエージェントは,AutoMatの総合的な成功率を低くし,54.1%に抑えられた。
エラー解析により、ワークフローを紙のテキストだけで再構築する必要がある場合、エージェントは最悪の処理を行うことが明らかとなり、主に不完全な手順、方法論上の逸脱、実行の不安定さによって失敗する。
これらの知見を総合すると、AutoMatは計算科学的再現性のベンチマークであり、AIと科学の設定におけるエージェントシステムの現在の限界を診断するためのツールでもある。
関連論文リスト
- Agent psychometrics: Task-level performance prediction in agentic coding benchmarks [24.348135523715815]
本稿では,エージェントプログラミング体制に合わせて,個々のタスクにおける成功や失敗を予測する枠組みを提案する。
我々のアプローチは、イシューステートメント、リポジトリコンテキスト、ソリューション、テストケースなど、タスクから抽出された豊富な機能を備えたアイテム応答理論(IRT)を拡張します。
論文 参考訳(メタデータ) (2026-04-01T07:59:59Z) - AI-for-Science Low-code Platform with Bayesian Adversarial Multi-Agent Framework [4.782965804438204]
大規模言語モデル(LLM)は、科学的コード生成を自動化する可能性を示しているが、信頼性、エラーの伝播、評価において課題に直面している。
我々は,AI for Science(AI4S)タスクを低符号プラットフォーム(LCP)の形で特別に設計したベイズ対向型マルチエージェントフレームワークを提案する。
ユーザ入力を実行可能な計画と適応テストケースに構造化するタスクマネージャ、候補ソリューションを生成するコードジェネレータ、包括的なフィードバックを提供する評価器である。
論文 参考訳(メタデータ) (2026-03-03T18:25:00Z) - ReplicatorBench: Benchmarking LLM Agents for Replicability in Social and Behavioral Sciences [19.81372090301296]
ReplicatorBenchは、3段階にわたる研究レプリケーションにおけるAIエージェントの評価のためのエンドツーエンドのベンチマークである。
ReplicatorAgentは,Web検索やサンドボックス環境との反復的なインタラクションなど,必要なツールを備えたエージェントフレームワークである。
ReplicatorAgentは、4つの基礎となる大規模言語モデル(LLM)にまたがって評価する。
論文 参考訳(メタデータ) (2026-02-11T20:42:10Z) - Automating Computational Reproducibility in Social Science: Comparing Prompt-Based and Agent-Based Approaches [0.3637090866781549]
計算研究の再現は、提供されたデータで元のコードを再実行するのと同じくらい単純であるとしばしば考えられている。
本研究では,大規模な言語モデルとAIエージェントが,そのような障害の診断と修復を自動化できるかどうかを検討する。
論文 参考訳(メタデータ) (2026-02-09T11:59:59Z) - An Agentic Framework for Autonomous Materials Computation [70.24472585135929]
大規模言語モデル(LLM)は、科学的発見を加速するための強力なツールとして登場した。
近年の進歩はLLMをエージェントフレームワークに統合し、複雑な科学実験のための検索、推論、ツールの使用を可能にしている。
本稿では,第一原理計算の信頼性向上を目的としたドメイン特化エージェントを提案する。
論文 参考訳(メタデータ) (2025-12-22T15:03:57Z) - Simple Agents Outperform Experts in Biomedical Imaging Workflow Optimization [69.36509281190662]
生産レベルのコンピュータビジョンツールを科学データセットに適応させることは、重要な"ラストマイル"ボトルネックである。
我々は、AIエージェントを使ってこの手動コーディングを自動化し、最適なエージェント設計のオープンな問題に焦点を当てる。
簡単なエージェントフレームワークが、人間-専門家のソリューションよりも優れた適応コードを生成することを実証する。
論文 参考訳(メタデータ) (2025-12-02T18:42:26Z) - Toward Automated and Trustworthy Scientific Analysis and Visualization with LLM-Generated Code [6.068120728706316]
大規模言語モデル(LLM)は、自然言語記述からコードを生成することで、有望なソリューションを提供する。
実際の研究課題を反映したドメインインスパイアされたプロンプトのベンチマークスイートを構築した。
人間の介入なしには, LLM生成コードの信頼性は限られている。
論文 参考訳(メタデータ) (2025-11-26T21:27:03Z) - AutoMind: Adaptive Knowledgeable Agent for Automated Data Science [70.33796196103499]
LLM(Large Language Model)エージェントは、現実世界のデータサイエンス問題に対処する大きな可能性を示している。
既存のフレームワークは、厳格で、事前定義された、柔軟性のないコーディング戦略に依存している。
適応的で知識のあるLLMエージェントフレームワークであるAutoMindを紹介する。
論文 参考訳(メタデータ) (2025-06-12T17:59:32Z) - DrugPilot: LLM-based Parameterized Reasoning Agent for Drug Discovery [54.79763887844838]
大規模言語モデル(LLM)と自律エージェントの統合は、自動推論とタスク実行を通じて科学的発見を促進する大きな可能性を秘めている。
本稿では,薬物発見におけるエンドツーエンド科学のために設計されたパラメータ化推論アーキテクチャを備えたLSMベースのエージェントシステムであるDrarmPilotを紹介する。
DrugPilot は ReAct や LoT のような最先端のエージェントよりも優れており、タスク完了率は98.0%、93.5%、64.0%である。
論文 参考訳(メタデータ) (2025-05-20T05:18:15Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。