論文の概要: DiscoverPhysics: Benchmarking LLMs for Out-of-the-Box Scientific Thinking
- arxiv url: http://arxiv.org/abs/2605.26087v1
- Date: Mon, 25 May 2026 17:50:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.631369
- Title: DiscoverPhysics: Benchmarking LLMs for Out-of-the-Box Scientific Thinking
- Title(参考訳): DiscoverPhysics: アウトオブボックス科学思考のためのLLMのベンチマーク
- Authors: Matt L. Wiemann, Lindsay M. Smith, Peter Melchior, Siddharth Mishra-Sharma, Andrew Gordon Wilson, Pavel Izmailov, Carolina Cuesta-Lázaro,
- Abstract要約: シミュレーションされた世界の動きの法則をLLMエージェントに求める対話型ベンチマークであるDiscoverPhysicsを紹介する。
我々は, 遮蔽・分数パワー重力, 多種結合, 暗黒物質様粒子, 非座標物理学, 時間変化相互作用などによって支配される22の世界を構築した。
世界を解決するには、エージェントが情報的実験を設計し、仮説を改訂する必要があるため、このベンチマークは長距離推論を探索する。
- 参考スコア(独自算出の注目度): 36.38263429163835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Frontier LLMs now perform strongly across a wide range of physics evaluations, but it is hard to disentangle genuine reasoning from recall of established science. We introduce DiscoverPhysics, an interactive benchmark that asks a LLM agent to discover the laws of motion of a simulated world whose physics deliberately deviates from our own. We construct 22 worlds governed by, among others, screened and fractional-power gravity, multi-species couplings, hidden dark-matter-like particles, non-coordinate-free physics, and time-varying interactions. Each world is generated on demand by an N-body simulator, for which the agent proposes several rounds of experiments, observes raw trajectory data, and ultimately submits both a natural-language explanation of the world's physics and a Python implementation of the inferred law. Because solving a world requires the agent to design informative experiments and revise its hypotheses, the benchmark probes long-horizon reasoning over an experimental history. We evaluate submissions along two complementary axes: trajectory MSE on held-out particles and an LLM-judged explanation score following an expert-written rubric assessing conceptual understanding of each world. Across eleven frontier models, we find that the strongest agents pass only half of the worlds and consistently fail on those where latent structure must be uncovered. Open-source models lag substantially behind commercial models, both in their ability to design informative experiments and in extracting conclusions from the data. We further find that good predictive accuracy does not guarantee high explanation quality and that conceptual understanding depends on hypothesis refinement through well-chosen experiments.
- Abstract(参考訳): 現在、フロンティアLSMは幅広い物理学的評価において強い性能を発揮しているが、確立された科学の思い出から真の理性を引き離すことは困難である。
本研究では, LLMエージェントに対して, 物理がわざと逸脱している模擬世界の運動法則を発見するための, インタラクティブなベンチマークであるDiscoverPhysicsを紹介する。
我々は, 遮蔽・分数パワー重力, 多種結合, 暗黒物質様粒子, 非座標物理学, 時間変化相互作用などによって支配される22の世界を構築した。
各世界はNボディシミュレータによってオンデマンドで生成され、エージェントは数ラウンドの実験を提案し、生の軌道データを観察し、最終的に世界の物理学の自然言語による説明と推論された法則のPython実装の両方を提出する。
世界を解決するには、エージェントが情報的実験を設計し、仮説を改訂する必要があるため、このベンチマークは実験の歴史について長期の推論を調査する。
我々は,2つの相補的軸,すなわちホールドアウト粒子の軌道 MSE と,各世界の概念的理解を評価する専門家記述ルーブリックに基づく LLM-judged 説明スコアについて検討した。
11つのフロンティアモデルにまたがって、最強のエージェントは世界のわずか半分を通り、潜伏構造が発見されなければならないものに一貫して失敗する。
オープンソースモデルは、情報的実験を設計し、データから結論を抽出する能力の両方において、商用モデルに大きく遅れている。
さらに、優れた予測精度は、高い説明品質を保証せず、概念的理解は、良心的な実験によって仮説の洗練に依存することが判明した。
関連論文リスト
- PRL-Bench: A Comprehensive Benchmark Evaluating LLMs' Capabilities in Frontier Physics Research [43.71141859083647]
PRL-Benchは、エンドツーエンドの物理研究を実行するためのベンチマークである。
天体物理学、凝縮物質物理学、高エネルギー物理学、量子情報、統計物理学をカバーしている。
ベンチマークの各タスクは、真の科学研究のコア特性を再現するように設計されている。
論文 参考訳(メタデータ) (2026-04-16T16:22:04Z) - Can Theoretical Physics Research Benefit from Language Agents? [50.57057488167844]
大規模言語モデル(LLM)は、様々な領域にわたって急速に進歩しているが、理論物理学研究への応用はまだ成熟していない。
このポジションペーパーは、LLMエージェントが、ドメイン知識やツールボックスと適切に統合された場合、理論的、計算的、応用物理学を加速するのに役立つと主張している。
マルチモーダルデータを処理し、検証可能な仮説を提案し、設計実験を行う物理特殊化LSMを構想する。
論文 参考訳(メタデータ) (2025-06-06T16:20:06Z) - MOOSE-Chem2: Exploring LLM Limits in Fine-Grained Scientific Hypothesis Discovery via Hierarchical Search [102.11776494401705]
大規模言語モデル (LLM) は科学的仮説生成の自動化において有望であることを示している。
既存のアプローチは主に、批判的な方法論や実験的な詳細を欠いた粗粒の仮説を導出する。
我々は、科学的仮説発見の新しいタスクを導入し、正式に定義する。
論文 参考訳(メタデータ) (2025-05-25T16:13:46Z) - LLM and Simulation as Bilevel Optimizers: A New Paradigm to Advance Physical Scientific Discovery [141.39722070734737]
本稿では,大規模言語モデルの知識駆動型抽象推論能力をシミュレーションの計算力で強化することを提案する。
本稿では,2段階最適化フレームワークであるSGA(Scientific Generative Agent)を紹介する。
法発見と分子設計における枠組みの有効性を実証するための実験を行った。
論文 参考訳(メタデータ) (2024-05-16T03:04:10Z) - Large Language Models are Zero Shot Hypothesis Proposers [17.612235393984744]
大規模言語モデル(LLM)は、情報障壁を断ち切ることを約束する、グローバルかつ学際的な知識の豊富なものである。
バイオメディカル文献から背景知識と仮説ペアからなるデータセットを構築した。
ゼロショット, 少数ショット, 微調整設定において, 最上位モデルの仮説生成能力を評価する。
論文 参考訳(メタデータ) (2023-11-10T10:03:49Z) - Large Language Models for Automated Open-domain Scientific Hypotheses Discovery [50.40483334131271]
本研究は,社会科学の学術的仮説発見のための最初のデータセットを提案する。
従来のデータセットとは異なり、新しいデータセットには、(1)オープンドメインデータ(RAW Webコーパス)を観察として使用すること、(2)人間性にさらに新しい仮説を提案することが必要である。
パフォーマンス向上のための3つのフィードバック機構を含む,タスクのためのマルチモジュールフレームワークが開発されている。
論文 参考訳(メタデータ) (2023-09-06T05:19:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。