論文の概要: NewtonBench: Benchmarking Generalizable Scientific Law Discovery in LLM Agents
- arxiv url: http://arxiv.org/abs/2510.07172v1
- Date: Wed, 08 Oct 2025 16:12:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.612364
- Title: NewtonBench: Benchmarking Generalizable Scientific Law Discovery in LLM Agents
- Title(参考訳): NewtonBench: LLMエージェントにおける一般的な科学法発見のベンチマーク
- Authors: Tianshi Zheng, Kelvin Kiu-Wai Tam, Newt Hue-Nam K. Nguyen, Baixuan Xu, Zhaowei Wang, Jiayang Cheng, Hong Ting Tsang, Weiqi Wang, Jiaxin Bai, Tianqing Fang, Yangqiu Song, Ginny Y. Wong, Simon See,
- Abstract要約: 科学法発見のための強力なツールとして、大規模な言語モデルが登場している。
このタスクの既存のベンチマークは、基本的な方法論のトリレンマに悩まされている。
12の物理領域にわたる324の科学法発見タスクからなるベンチマークであるNewtonBenchを紹介する。
- 参考スコア(独自算出の注目度): 65.85967483058705
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models are emerging as powerful tools for scientific law discovery, a foundational challenge in AI-driven science. However, existing benchmarks for this task suffer from a fundamental methodological trilemma, forcing a trade-off between scientific relevance, scalability, and resistance to memorization. Furthermore, they oversimplify discovery as static function fitting, failing to capture the authentic scientific process of uncovering embedded laws through the interactive exploration of complex model systems. To address these critical gaps, we introduce NewtonBench, a benchmark comprising 324 scientific law discovery tasks across 12 physics domains. Our design mitigates the evaluation trilemma by using metaphysical shifts - systematic alterations of canonical laws - to generate a vast suite of problems that are scalable, scientifically relevant, and memorization-resistant. Moreover, we elevate the evaluation from static function fitting to interactive model discovery, requiring agents to experimentally probe simulated complex systems to uncover hidden principles. Our extensive experiment reveals a clear but fragile capability for discovery in frontier LLMs: this ability degrades precipitously with increasing system complexity and exhibits extreme sensitivity to observational noise. Notably, we uncover a paradoxical effect of tool assistance: providing a code interpreter can hinder more capable models by inducing a premature shift from exploration to exploitation, causing them to satisfice on suboptimal solutions. These results demonstrate that robust, generalizable discovery in complex, interactive environments remains the core challenge. By providing a scalable, robust, and scientifically authentic testbed, NewtonBench offers a crucial tool for measuring true progress and guiding the development of next-generation AI agents capable of genuine scientific discovery.
- Abstract(参考訳): 大規模言語モデルは、AI駆動科学における基礎的課題である科学法発見のための強力なツールとして出現している。
しかし、既存のベンチマークは基本的な方法論的なトリレンマに悩まされ、科学的妥当性、スケーラビリティ、暗記に対する耐性のトレードオフを余儀なくされた。
さらに、それらは発見を静的な機能フィッティングとして単純化し、複雑なモデルシステムのインタラクティブな探索を通じて埋め込み法則を明らかにするという、真正の科学的プロセスの把握に失敗する。
これらの重要なギャップに対処するために、12の物理領域にわたる324の科学法発見タスクからなるベンチマークであるNewtonBenchを紹介します。
我々の設計は、メタ物理シフト(正準法則の体系的な変更)を用いて、拡張性、科学的に関連があり、記憶に抵抗する多くの問題を生成することで、評価のトリレンマを緩和する。
さらに,静的関数適合から対話型モデル発見への評価を高め,エージェントが隠れた原理を明らかにするためにシミュレーションされた複雑なシステムを実験的に探究する必要がある。
この能力は、システムの複雑さが増大し、観測ノイズに対する極端に感度が低下する。
コードインタプリタを提供することは、探索からエクスプロイトへの早急なシフトを誘導することにより、より有能なモデルを妨げる可能性がある。
これらの結果は、複雑で対話的な環境における堅牢で一般化可能な発見が依然として中心的な課題であることを示している。
スケーラブルで堅牢で科学的に認証されたテストベッドを提供することで、NewtonBenchは真の進歩を測定し、真の科学的発見が可能な次世代AIエージェントの開発を導く重要なツールを提供する。
関連論文リスト
- The Need for Verification in AI-Driven Scientific Discovery [9.887965168376311]
機械学習と大規模言語モデルは、従来の手法をはるかに超えたスケールと速度で仮説を生成することができる。
検証のためのスケーラブルで信頼性の高いメカニズムがなければ、科学的進歩のリスクは先進的ではなく妨げられる、と我々は主張する。
論文 参考訳(メタデータ) (2025-09-01T11:50:04Z) - Can Language Models Discover Scaling Laws? [57.794209392781845]
本稿では,拡張法則モデルとパラメータを協調的に最適化し,変数間の複雑な関係を自律的に探索する進化型エージェントSLDAgentを紹介する。
SLDAgentが、確立された人間由来の法則よりも、一貫して正確な外挿を示す法則を自動的に発見できることを、初めて実証した。
論文 参考訳(メタデータ) (2025-07-27T05:45:26Z) - Position: Intelligent Science Laboratory Requires the Integration of Cognitive and Embodied AI [98.19195693735487]
知的科学研究所(ISL)のパラダイムを提案する。
ISLは、認知と具体的知性を深く統合した多層クローズドループフレームワークである。
このようなシステムは、現在の科学的発見の限界を克服するために不可欠である、と我々は主張する。
論文 参考訳(メタデータ) (2025-06-24T13:31:44Z) - ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows [82.07367406991678]
大規模言語モデル(LLM)は自然言語処理を超えてその影響を拡大している。
これらのうち、コンピュータ利用エージェントは、人間がしているようにオペレーティングシステムと対話することができる。
我々はScienceBoardを紹介し、ダイナミックで視覚的にリッチな科学ソフトウェアを特徴とする現実的でマルチドメイン環境を包含する。
論文 参考訳(メタデータ) (2025-05-26T12:27:27Z) - PiFlow: Principle-aware Scientific Discovery with Multi-Agent Collaboration [9.216546947535244]
自動科学的発見のための情報理論フレームワークPiFlowを紹介する。
提案手法は,曲線下面積の73.55%増加を反映して,発見効率を著しく向上させる。
全体として、PiFlowはPlug-and-Playメソッドとして機能し、高度に効率的な自動科学的発見における新しいパラダイムシフトを確立する。
論文 参考訳(メタデータ) (2025-05-21T03:09:39Z) - Auto-Bench: An Automated Benchmark for Scientific Discovery in LLMs [23.608962459019278]
自然科学と社会科学の両方において科学的発見のための大規模言語モデル(LLM)を評価するための新しいベンチマークを導入する。
我々のベンチマークは因果グラフ発見の原理に基づいており、隠れ構造を発見し、有効な正当性を生成することを含む最適な決定を行うためのモデルに挑戦する。
我々は,GPT-4,Gemini,Qwen,Claude,Llamaを含む最先端のLCMを評価し,問題を複雑化するにつれて性能低下を観測した。
論文 参考訳(メタデータ) (2025-02-21T05:35:20Z) - LLM and Simulation as Bilevel Optimizers: A New Paradigm to Advance Physical Scientific Discovery [141.39722070734737]
本稿では,大規模言語モデルの知識駆動型抽象推論能力をシミュレーションの計算力で強化することを提案する。
本稿では,2段階最適化フレームワークであるSGA(Scientific Generative Agent)を紹介する。
法発見と分子設計における枠組みの有効性を実証するための実験を行った。
論文 参考訳(メタデータ) (2024-05-16T03:04:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。