論文の概要: PRL-Bench: A Comprehensive Benchmark Evaluating LLMs' Capabilities in Frontier Physics Research
- arxiv url: http://arxiv.org/abs/2604.15411v1
- Date: Thu, 16 Apr 2026 16:22:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.593941
- Title: PRL-Bench: A Comprehensive Benchmark Evaluating LLMs' Capabilities in Frontier Physics Research
- Title(参考訳): PRL-Bench:フロンティア物理研究におけるLLMの能力評価のための総合ベンチマーク
- Authors: Tingjia Miao, Wenkai Jin, Muhua Zhang, Jinxin Tan, Yuelin Hu, Tu Guo, Jiejun Zhang, Yuhan Wang, Wenbo Li, Yinuo Gao, Shuo Chen, Weiqi Jiang, Yayun Hu, Zixing Lei, Xianghe Pang, Zexi Liu, Yuzhi Zhang, Linfeng Zhang, Kun Chen, Wei Wang, Weinan E, Siheng Chen,
- Abstract要約: PRL-Benchは、エンドツーエンドの物理研究を実行するためのベンチマークである。
天体物理学、凝縮物質物理学、高エネルギー物理学、量子情報、統計物理学をカバーしている。
ベンチマークの各タスクは、真の科学研究のコア特性を再現するように設計されている。
- 参考スコア(独自算出の注目度): 43.71141859083647
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The paradigm of agentic science requires AI systems to conduct robust reasoning and engage in long-horizon, autonomous exploration. However, current scientific benchmarks remain confined to domain knowledge comprehension and complex reasoning, failing to evaluate the exploratory nature and procedural complexity of real-world research. In this work, we present research-oriented evaluations in theoretical and computational physics, a natural testbed with comprehensive domain knowledge, complex reasoning, and verifiable end-to-end workflows without reliance on experiments. Here we introduce PRL-Bench (Physics Research by LLMs), a benchmark designed to systematically map the capability boundaries of LLMs in executing end-to-end physics research. Constructed from 100 curated papers from the latest issues of Physical Review Letters since August 2025 and validated by domain experts, PRL-Bench covers five major theory- and computation-intensive subfields of modern physics: astrophysics, condensed matter physics, high-energy physics, quantum information, and statistical physics. Each task in the benchmark is designed to replicate the core properties of authentic scientific research, including exploration-oriented formulation, long-horizon workflows, and objective verifiability, thereby reconstructing the essential reasoning processes and research workflows of real physics research. Evaluation across frontier models shows that performance remains limited, with the best overall score below 50, revealing a pronounced gap between current LLM capabilities and the demands of real scientific research. PRL-Bench serves a reliable testbed for accessing next generation AI scientists advancing AI systems toward autonomous scientific discovery.
- Abstract(参考訳): エージェント科学のパラダイムは、AIシステムが堅牢な推論を行い、長期の自律的な探査に従事することを要求する。
しかし、現在の科学的ベンチマークは領域知識の理解と複雑な推論に限られており、現実世界の研究の探索的性質と手続き的複雑さを評価できない。
本研究では,理論および計算物理学における研究指向評価,包括的ドメイン知識,複雑な推論,検証可能なエンドツーエンドワークフローを実験に依存しない自然なテストベッドを提案する。
本稿では, PRL-Bench (Physics Research by LLMs) について紹介する。
PRL-Benchは2025年8月以降のフィジカル・レビュー・レターの最新号から100のキュレートされた論文から作成され、ドメインの専門家によって検証され、天文学、凝縮物質物理学、高エネルギー物理学、量子情報、統計物理学の5つの主要な理論と計算集約サブフィールドをカバーしている。
ベンチマークの各タスクは、探索指向の定式化、長距離ワークフロー、客観的検証可能性など、真正科学研究のコア特性を再現し、実際の物理学研究の本質的な推論プロセスと研究ワークフローを再構築するように設計されている。
最良スコアは50未満であり、現在のLLM能力と実際の科学研究の要求との間に明らかなギャップがあることが示されている。
PRL-Benchは、AIシステムを自律的な科学的発見に向けて進める次世代AI科学者に、信頼できるテストベッドを提供する。
関連論文リスト
- PhysMaster: Building an Autonomous AI Physicist for Theoretical and Computational Physics Research [45.393852582578695]
本稿では,自律的理論・計算物理学者であるPhysMasterを提案する。
我々は, 高エネルギー理論, 凝縮物質理論から天体物理学へ, (i) 加速, 労働集約的な研究を数ヶ月から数時間に圧縮, (ii) 自動化, 仮説駆動ループの自律実行, (iii) 自律的発見, オープンな問題を独立して探索する。
論文 参考訳(メタデータ) (2025-12-22T19:00:15Z) - Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows [203.3527268311731]
PIM(Practical Inquiry Model)に基づく運用SGI定義を提案する。
深層研究、アイデア生成、ドライ/ウェット実験、実験推論の4つのタスクを通じて運用しています。
私たちのPIMによる定義、ワークフロー中心のベンチマーク、実証的な洞察は、真に科学的な発見に参加するAIシステムの基盤を確立します。
論文 参考訳(メタデータ) (2025-12-18T12:44:36Z) - Probing the Critical Point (CritPt) of AI Reasoning: a Frontier Physics Research Benchmark [49.42250115889234]
本研究では,研究レベルの推論タスクにおいて,大規模言語モデル(LLM)をテストするために設計された最初のベンチマークを示す。
CritPtは71の複合研究課題からなる。
現在最先端のLCMは、孤立したチェックポイントを早期に保証しているが、完全な研究スケールの課題を確実に解決できるには程遠い。
論文 参考訳(メタデータ) (2025-09-30T17:34:03Z) - Can Theoretical Physics Research Benefit from Language Agents? [50.57057488167844]
大規模言語モデル(LLM)は、様々な領域にわたって急速に進歩しているが、理論物理学研究への応用はまだ成熟していない。
このポジションペーパーは、LLMエージェントが、ドメイン知識やツールボックスと適切に統合された場合、理論的、計算的、応用物理学を加速するのに役立つと主張している。
マルチモーダルデータを処理し、検証可能な仮説を提案し、設計実験を行う物理特殊化LSMを構想する。
論文 参考訳(メタデータ) (2025-06-06T16:20:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。