論文の概要: Automating High Energy Physics Data Analysis with LLM-Powered Agents
- arxiv url: http://arxiv.org/abs/2512.07785v1
- Date: Mon, 08 Dec 2025 18:13:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.659687
- Title: Automating High Energy Physics Data Analysis with LLM-Powered Agents
- Title(参考訳): LLMを用いた高エネルギー物理データ解析の自動化
- Authors: Eli Gendreau-Distler, Joshua Ho, Dongwon Kim, Luc Tomas Le Pottier, Haichen Wang, Chengxi Yang,
- Abstract要約: 本稿では,大規模言語モデル (LLM) エージェントを用いた代表的高エネルギー物理学 (HEP) 解析の自動化を実証する。
ヒッグス粒子二光子断面積測定をATLAS Open Dataのケーススタディとして用いて,LLMベースのスーパーバイザコーダエージェントとSnakemakeワークフローマネージャを組み合わせたハイブリッドシステムを構築した。
このアーキテクチャでは、ワークフローマネージャは決定性を強制し、エージェントはユーザーの指示に応じて分析コードを自動生成し、実行し、反復的に修正する。
- 参考スコア(独自算出の注目度): 6.8676809101926075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a proof-of-principle study demonstrating the use of large language model (LLM) agents to automate a representative high energy physics (HEP) analysis. Using the Higgs boson diphoton cross-section measurement as a case study with ATLAS Open Data, we design a hybrid system that combines an LLM-based supervisor-coder agent with the Snakemake workflow manager. In this architecture, the workflow manager enforces reproducibility and determinism, while the agent autonomously generates, executes, and iteratively corrects analysis code in response to user instructions. We define quantitative evaluation metrics including success rate, error distribution, costs per specific task, and average number of API calls, to assess agent performance across multi-stage workflows. To characterize variability across architectures, we benchmark a representative selection of state-of-the-art LLMs spanning the Gemini and GPT-5 series, the Claude family, and leading open-weight models. While the workflow manager ensures deterministic execution of all analysis steps, the final outputs still show stochastic variation. Although we set the temperature to zero, other sampling parameters (e.g., top-p, top-k) remained at their defaults, and some reasoning-oriented models internally adjust these settings. Consequently, the models do not produce fully deterministic results. This study establishes the first LLM-agent-driven automated data-analysis framework in HEP, enabling systematic benchmarking of model capabilities, stability, and limitations in real-world scientific computing environments. The baseline code used in this work is available at https://huggingface.co/HWresearch/LLM4HEP. This work was accepted as a poster at the Machine Learning and the Physical Sciences (ML4PS) workshop at NeurIPS 2025. The initial submission was made on August 30, 2025.
- Abstract(参考訳): 本稿では,大規模言語モデル (LLM) エージェントを用いた代表的高エネルギー物理学 (HEP) 解析の自動化を実証する。
ヒッグス粒子二光子断面積測定をATLAS Open Dataのケーススタディとして用いて,LLMベースのスーパーバイザコーダエージェントとSnakemakeワークフローマネージャを組み合わせたハイブリッドシステムを構築した。
このアーキテクチャでは、ワークフローマネージャは再現性と決定性を強制し、エージェントはユーザーの指示に応じて分析コードを生成し、実行し、反復的に修正する。
マルチステージワークフローにおけるエージェントのパフォーマンスを評価するために、成功率、エラー分布、特定のタスク毎のコスト、API呼び出しの平均数などの定量的評価指標を定義した。
アーキテクチャ間のばらつきを特徴付けるため,Gemini と GPT-5 シリーズ,Claude ファミリー,そしてオープンウェイトモデルにまたがる最先端の LLM の代表的な選択をベンチマークした。
ワークフローマネージャはすべての分析ステップの決定論的実行を保証するが、最終的なアウトプットは確率的変動を示す。
我々は温度をゼロに設定したが、他のサンプリングパラメータ(例えば、トップp、トップk)はデフォルトのままであり、いくつかの推論指向モデルはこれらの設定を内部的に調整する。
その結果、モデルは完全に決定論的結果が得られない。
本研究は,実世界の科学計算環境におけるモデル能力,安定性,限界の体系的ベンチマークを可能にする,初めてのLLMエージェント駆動型自動データ分析フレームワークをHEPで確立した。
この作業で使用されるベースラインコードはhttps://huggingface.co/HWresearch/LLM4HEPで公開されている。
この作品は、NeurIPS 2025のML4PSワークショップでポスターとして受け入れられた。
最初の提出は2025年8月30日に行われた。
関連論文リスト
- MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization [103.74675519953898]
ロングチェーンのリフレクティブ推論は、複雑な現実世界の問題を解決するための前提条件である。
我々は42の難解な合成タスクの1,260のサンプルからなるベンチマークを構築した。
トレーニング後のデータを生成し、そのようなデータを活用するための学習パラダイムを探索する。
論文 参考訳(メタデータ) (2025-10-09T17:53:58Z) - A Lightweight Large Language Model-Based Multi-Agent System for 2D Frame Structural Analysis [21.13581042992661]
大規模言語モデル(LLM)は、工学における自律的エージェントの強化に最近使用されている。
本稿では、2次元フレームの有限要素モデリングを自動化するLLMベースのマルチエージェントシステムを提案する。
このシステムは10回の試行で80%以上の精度を達成し、Gemini-2.5 ProとChatGPT-4oモデルを上回っている。
論文 参考訳(メタデータ) (2025-10-06T22:12:52Z) - Automating Data-Driven Modeling and Analysis for Engineering Applications using Large Language Model Agents [3.344730946122235]
本稿では,Large Language Model (LLM) エージェントを用いてデータ駆動モデリングと分析を自動化する革新的なパイプラインを提案する。
協調エージェントを特徴とするマルチエージェントシステムと、Reasoning and Acting(ReAct)パラダイムに基づく単一エージェントシステムである。
論文 参考訳(メタデータ) (2025-10-01T19:28:35Z) - Autonomous Control Leveraging LLMs: An Agentic Framework for Next-Generation Industrial Automation [0.0]
本稿では,大規模言語モデル(LLM)を個別のフォールトリカバリ計画と継続的プロセス制御の両方に活用する統合エージェントフレームワークを提案する。
その結果、構造化されたフィードバックとモジュラーエージェントにより、LLMは高レベルな記号計画と低レベルな連続制御を統一できることを示した。
論文 参考訳(メタデータ) (2025-07-03T11:20:22Z) - Agentomics-ML: Autonomous Machine Learning Experimentation Agent for Genomic and Transcriptomic Data [33.7054351451505]
本稿では,完全自律型エージェントベースシステムであるAgenomics-MLを紹介した。
本稿では,Agenomics-MLが既存のエージェントベースの手法よりも,一般化と成功率の両面で優れていることを示す。
論文 参考訳(メタデータ) (2025-06-05T19:44:38Z) - AIRepr: An Analyst-Inspector Framework for Evaluating Reproducibility of LLMs in Data Science [8.281093505963158]
大規模言語モデル(LLM)は、実行可能なコード生成を通じてデータ分析を自動化するために、ますます使われるようになっている。
本稿では,LLM生成データ分析の自動評価と改善のための分析・検査フレームワークであるAIReprについて述べる。
論文 参考訳(メタデータ) (2025-02-23T01:15:50Z) - Beyond Scaling: Measuring and Predicting the Upper Bound of Knowledge Retention in Language Model Pre-Training [68.94373533768501]
我々は、知識保持をモデル化し、そのコーパスから事実情報を記憶するための事前学習言語モデルの能力を示し、学習前にそれを推定する原則的手法を導入する。
本稿では,知識周波数,知識特異度,モデルサイズを統合し,クローズドブック質問応答(QA)の精度を予測する情報理論予測器である,サイズ依存型相互情報(SMI)を提案する。
論文 参考訳(メタデータ) (2025-02-06T13:23:53Z) - MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization [86.61052121715689]
MatPlotAgentは、科学的データ可視化タスクを自動化するために設計された、モデルに依存しないフレームワークである。
MatPlotBenchは、100人の検証されたテストケースからなる高品質なベンチマークである。
論文 参考訳(メタデータ) (2024-02-18T04:28:28Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。