論文の概要: Collider-Bench: Benchmarking AI Agents with Particle Physics Analysis Reproduction
- arxiv url: http://arxiv.org/abs/2605.13950v1
- Date: Wed, 13 May 2026 18:00:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.434095
- Title: Collider-Bench: Benchmarking AI Agents with Particle Physics Analysis Reproduction
- Title(参考訳): Collider-Bench: 粒子物理分析の再現によるAIエージェントのベンチマーク
- Authors: Darius A. Faroughy, Sofia Palacios Schweitzer, Ian Pang, Siddharth Mishra-Sharma, David Shih,
- Abstract要約: 我々は,LHC(Large Hadron Collider)から,公開論文とオープンサイエンスソフトウェアのみを用いて,言語モデルエージェントが実験分析を再現できるかどうかを評価するベンチマークであるCollind-Benchを紹介する。
したがってエージェントは、これらのギャップを埋めるために、物理的推論、ドメイン知識、試行錯誤に頼らなければならない。
以上の結果から, 平均的なエージェントが, ループ内解法を確実に打ち負かすことは不可能であることが示唆された。
- 参考スコア(独自算出の注目度): 0.02446672595462589
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous language-model agents are increasingly evaluated on long-horizon tool-use tasks, but existing benchmarks rarely capture the complexity and nuance of real scientific work. To address this gap, we introduce Collider-Bench, a benchmark for evaluating whether LLM agents can reproduce experimental analyses from the Large Hadron Collider (LHC) using only public papers and open scientific software. Such analyses are often difficult to reproduce because the public toolchain only approximates the software used internally by the experimental collaborations, while the published papers inevitably omit implementation details needed for a faithful reconstruction. Agents must therefore rely on physical reasoning, domain knowledge, and trial-and-error to fill these gaps. Each task requires the agent to turn a published analysis into an executable simulation-and-selection pipeline and submit predicted collision event yields in specified signal regions. These predictions are evaluated with standard histogram metrics that provide continuous fidelity scores without a hand-written rubric. We also report the computational cost incurred by each agent per task. Finally, we evaluate the codebase and full session trace using an LLM judge to catch qualitative failure modes such as fabrications, hallucinations and duplications. We release an initial set of tasks drawn from LHC searches, together with a containerized sandbox and event simulation tools. We evaluate across a capability ladder of general purpose coding agents. Our results show that on average no agent reliably beats the physicist-in-the-loop solution.
- Abstract(参考訳): 自律言語モデルエージェントは、長期ツールの使用タスクでますます評価されるが、既存のベンチマークでは、実際の科学的作業の複雑さやニュアンスを捉えることは滅多にない。
このギャップに対処するため,我々はLHC(Large Hadron Collider)の実験分析を,公開論文とオープンサイエンスソフトウェアのみを用いて再現できるかどうかを評価するベンチマークであるColider-Benchを紹介した。
このような分析は、公開ツールチェーンが実験的なコラボレーションによって内部で使用されるソフトウェアにのみ近似するため、しばしば再現が困難である。
したがってエージェントは、これらのギャップを埋めるために、物理的推論、ドメイン知識、試行錯誤に頼らなければならない。
各タスクは、公開分析を実行可能なシミュレーション・アンド・セレクションパイプラインに変換し、特定の信号領域で予測された衝突イベントの収率を送信する必要がある。
これらの予測は、手書きの筆跡のない連続的な忠実度スコアを提供する標準的なヒストグラムで評価される。
また,タスク毎のエージェント毎の計算コストについても報告する。
最後に、LLM判定器を用いてコードベースと全セッショントレースを評価し、生成、幻覚、複製などの定性的な障害モードをキャッチする。
コンテナ化されたサンドボックスとイベントシミュレーションツールとともに,LHC検索から引き出されたタスクの初期セットをリリースする。
汎用符号化エージェントの能力はしごを横断的に評価する。
以上の結果から, 平均的なエージェントが, ループ内解法を確実に打ち負かすことは不可能であることが示唆された。
関連論文リスト
- gwBenchmarks: Stress-Testing LLM Agents on High-Precision Gravitational Wave Astronomy [2.316169407465118]
現代の重力波天文学は、しばしば何ヶ月もの大学院レベルの努力を必要とするモデリングタスクに依存している。
我々は、最先端のLCM符号化エージェントが、このようなエンドツーエンドの科学的モデリングを行うことができるかどうかを考察する。
重力波解析計算と数値シミュレーションに基礎を置く8つのタスクの組であるgwBenchmarksを紹介した。
論文 参考訳(メタデータ) (2026-05-11T21:47:22Z) - LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation [75.05397479715576]
大規模言語モデル(LLM)とエージェントは有望な進歩を示しているが、その真の能力と失敗モードは未だ不明である。
CプログラムのためのLCMおよびエージェントベースの形式仕様生成に関する、最初の体系的および汚染に配慮した研究を提案する。
論文 参考訳(メタデータ) (2026-05-02T11:31:33Z) - Can Coding Agents Reproduce Findings in Computational Materials Science? [49.254975563645786]
本稿では,大規模言語モデルの科学的主張を再現する能力を評価するためのベンチマークであるAutoMatを紹介する。
課題を専門とする専門家と緊密に連携することで、実際の材料科学論文からの一連の主張をキュレートし、コーディングエージェントがエンドツーエンドのワークフローを回復し実行できるかどうかを検証します。
結果、現在のLSMベースのエージェントはAutoMatの全体的な成功率を低くし、最も優れた設定は54.1%に過ぎなかった。
論文 参考訳(メタデータ) (2026-05-01T17:42:12Z) - An Agentic Evaluation Framework for AI-Generated Scientific Code in PETSc [7.236134946837382]
petscagent-benchはエージェント評価エージェントのパラダイムに基づいて構築されたエージェントフレームワークである。
正確性、パフォーマンス、コード品質、アルゴリズムの適切性、ライブラリ固有の規約の5つの評価カテゴリで14評価パイプラインを編成する。
本フレームワークは,HPC用PETScライブラリを用いて,現実的な問題のベンチマークスイート上で実演する。
論文 参考訳(メタデータ) (2026-03-16T22:46:10Z) - ReplicatorBench: Benchmarking LLM Agents for Replicability in Social and Behavioral Sciences [19.81372090301296]
ReplicatorBenchは、3段階にわたる研究レプリケーションにおけるAIエージェントの評価のためのエンドツーエンドのベンチマークである。
ReplicatorAgentは,Web検索やサンドボックス環境との反復的なインタラクションなど,必要なツールを備えたエージェントフレームワークである。
ReplicatorAgentは、4つの基礎となる大規模言語モデル(LLM)にまたがって評価する。
論文 参考訳(メタデータ) (2026-02-11T20:42:10Z) - CryptoBench: A Dynamic Benchmark for Expert-Level Evaluation of LLM Agents in Cryptocurrency [60.83660377169452]
本稿では,Large Language Model (LLM)エージェントの現実的能力を厳格に評価するために設計された,最初の専門家による動的ベンチマークであるCryptoBenchを紹介する。
検索と予測のための汎用エージェントベンチマークとは異なり、プロの暗号分析は特定の課題を提示する。
論文 参考訳(メタデータ) (2025-11-29T09:52:34Z) - Leveraging Knowledge Graphs and LLM Reasoning to Identify Operational Bottlenecks for Warehouse Planning Assistance [1.2749527861829046]
我々のフレームワークは知識グラフ(KG)とLarge Language Model(LLM)ベースのエージェントを統合している。
生のDESデータを意味的にリッチなKGに変換し、シミュレーションイベントとエンティティの関係をキャプチャする。
LLMベースのエージェントは反復推論を使用し、相互依存的なサブクエストを生成する。各サブクエストに対して、KGインタラクションのためのCypherクエリを生成し、情報を抽出し、エラーを修正する。
論文 参考訳(メタデータ) (2025-07-23T07:18:55Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。