論文の概要: AInsteinBench: Benchmarking Coding Agents on Scientific Repositories
- arxiv url: http://arxiv.org/abs/2512.21373v1
- Date: Wed, 24 Dec 2025 08:11:11 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 11:57:11.740344
- Title: AInsteinBench: Benchmarking Coding Agents on Scientific Repositories
- Title(参考訳): AInsteinBench: 科学リポジトリにおけるコーディングエージェントのベンチマーク
- Authors: Titouan Duston, Shuo Xin, Yang Sun, Daoguang Zan, Aoyan Li, Shulin Xin, Kai Shen, Yixiao Chen, Qiming Sun, Ge Zhang, Jiashuo Liu, Huan Zhou, Jingkai Liu, Zhichen Pu, Yuanheng Wang, Bo-Xuan Ge, Xin Tong, Fei Ye, Zhi-Chao Zhao, Wen-Biao Han, Zhoujian Cao, Yueran Zhao, Weiluo Ren, Qingshen Long, Yuxiao Liu, Anni Huang, Yidi Du, Yuanyuan Rong, Jiahao Peng,
- Abstract要約: AInsteinBenchは、大規模言語モデル(LLM)エージェントが科学計算開発エージェントとして動作するかどうかを評価するための大規模なベンチマークである。
AInsteinBenchは、表面レベルのコード生成を超えて、計算科学研究に必要なコア能力に移行するモデルの能力を測定する。
- 参考スコア(独自算出の注目度): 33.48206557020983
- License:
- Abstract: We introduce AInsteinBench, a large-scale benchmark for evaluating whether large language model (LLM) agents can operate as scientific computing development agents within real research software ecosystems. Unlike existing scientific reasoning benchmarks which focus on conceptual knowledge, or software engineering benchmarks that emphasize generic feature implementation and issue resolving, AInsteinBench evaluates models in end-to-end scientific development settings grounded in production-grade scientific repositories. The benchmark consists of tasks derived from maintainer-authored pull requests across six widely used scientific codebases, spanning quantum chemistry, quantum computing, molecular dynamics, numerical relativity, fluid dynamics, and cheminformatics. All benchmark tasks are carefully curated through multi-stage filtering and expert review to ensure scientific challenge, adequate test coverage, and well-calibrated difficulty. By leveraging evaluation in executable environments, scientifically meaningful failure modes, and test-driven verification, AInsteinBench measures a model's ability to move beyond surface-level code generation toward the core competencies required for computational scientific research.
- Abstract(参考訳): AInsteinBenchは、大規模言語モデル(LLM)エージェントが実際の研究ソフトウェアエコシステム内で科学計算開発エージェントとして機能するかどうかを評価するための大規模なベンチマークである。
概念知識に重点を置く既存の科学的推論ベンチマークや、一般的な特徴の実装と問題解決を強調するソフトウェア工学ベンチマークとは異なり、AInsteinBenchはプロダクショングレードの科学リポジトリに基礎を置くエンドツーエンドの科学開発環境でモデルを評価している。
このベンチマークは、量子化学、量子コンピューティング、分子動力学、数値相対性理論、流体力学、ケミノフォマティクスにまたがる6つの広く使われている科学コードベースで、メンテナが認可したプルリクエストから導かれるタスクで構成されている。
すべてのベンチマークタスクは、科学的な課題、適切なテストカバレッジ、十分に校正された困難を保証するために、多段階のフィルタリングと専門家レビューを通じて慎重にキュレートされる。
実行可能な環境の評価、科学的に意味のある障害モード、テスト駆動検証を活用することで、AInsteinBenchは、計算科学研究に必要なコア能力に向けて、表面レベルのコード生成を超えたモデル能力を測定する。
関連論文リスト
- PRiSM: An Agentic Multimodal Benchmark for Scientific Reasoning via Python-Grounded Evaluation [7.0748516420242495]
PRiSMは、基底Pythonコードによる科学的推論を評価するための、合成、完全に動的、マルチモーダルベンチマークである。
PRiSMには24750以上の大学レベルの物理学と数学の問題が含まれており、スケーラブルなエージェントベースのパイプラインであるPrismAgentを活用しています。
本稿では,摂動,記号型プログラム合成,ロバスト性,推論補正,あいまいさ解消を対象とする5つの評価課題を提案する。
論文 参考訳(メタデータ) (2025-12-05T18:14:55Z) - An MLCommons Scientific Benchmarks Ontology [2.665757190742151]
本稿では,統一的,コミュニティ主導の取り組みを通じて開発された科学ベンチマークのオントロジーを紹介する。
この取り組みは、異なるベンチマークとフレームワークの大規模なセットを単一の分類に集約する。
新しいベンチマークはMLCommons Science Working Groupが調整したオープンな提出を通じて追加することができる。
論文 参考訳(メタデータ) (2025-11-06T17:07:18Z) - NewtonBench: Benchmarking Generalizable Scientific Law Discovery in LLM Agents [65.85967483058705]
科学法発見のための強力なツールとして、大規模な言語モデルが登場している。
このタスクの既存のベンチマークは、基本的な方法論のトリレンマに悩まされている。
12の物理領域にわたる324の科学法発見タスクからなるベンチマークであるNewtonBenchを紹介する。
論文 参考訳(メタデータ) (2025-10-08T16:12:11Z) - A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers [251.23085679210206]
科学大規模言語モデル(Sci-LLMs)は、科学研究において、知識の表現、統合、適用の方法を変えつつある。
この調査は、モデルとその基盤となるデータ基板の共進化として、Sci-LLMの開発を再考する。
我々は、科学的データの統一された分類法と、科学的知識の階層的なモデルを定式化する。
論文 参考訳(メタデータ) (2025-08-28T18:30:52Z) - PhysGym: Benchmarking LLMs in Interactive Physics Discovery with Controlled Priors [29.988641224102164]
textscPhysGymは、LSMベースの科学的推論を厳格に評価するための、新しいベンチマークスイートとシミュレーションプラットフォームである。
textscPhysGymの主な貢献は、エージェントに提供された事前知識のレベルを高度に制御することにある。
論文 参考訳(メタデータ) (2025-07-21T12:28:10Z) - ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows [82.07367406991678]
大規模言語モデル(LLM)は自然言語処理を超えてその影響を拡大している。
これらのうち、コンピュータ利用エージェントは、人間がしているようにオペレーティングシステムと対話することができる。
我々はScienceBoardを紹介し、ダイナミックで視覚的にリッチな科学ソフトウェアを特徴とする現実的でマルチドメイン環境を包含する。
論文 参考訳(メタデータ) (2025-05-26T12:27:27Z) - HiPerRAG: High-Performance Retrieval Augmented Generation for Scientific Insights [72.82973609312178]
HiPerRAGは360万以上の科学論文から知識をインデクシングし取り出すワークフローである。
コアとなるのはマルチモーダル文書解析のための高スループットモデルであるOreoと、クエリ対応エンコーダの微調整アルゴリズムであるColTrastだ。
HiPerRAGは、既存の科学的質問応答ベンチマークと、この研究で導入された2つの新しいベンチマークで堅牢なパフォーマンスを提供する。
論文 参考訳(メタデータ) (2025-05-07T22:50:23Z) - Automated Creation and Human-assisted Curation of Computable Scientific
Models from Code and Text [2.3746609573239756]
ドメインエキスパートは、コードに詳しくなければ、科学的モデルの実装を完全に理解することはできない。
我々は,科学モデルの自動作成と人手によるキュレーションのためのシステムを開発した。
本研究では,NASAのハイパーソニック・エアロダイナミックス(Hypersonic Aerodynamics)のウェブサイトから得られたコードと関連テキストのデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2022-01-28T17:31:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。