論文の概要: PhysGym: Benchmarking LLMs in Interactive Physics Discovery with Controlled Priors
- arxiv url: http://arxiv.org/abs/2507.15550v1
- Date: Mon, 21 Jul 2025 12:28:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.388491
- Title: PhysGym: Benchmarking LLMs in Interactive Physics Discovery with Controlled Priors
- Title(参考訳): PhysGym: 制御プリミティブによる対話型物理発見におけるLLMのベンチマーク
- Authors: Yimeng Chen, Piotr Piȩkos, Mateusz Ostaszewski, Firas Laakom, Jürgen Schmidhuber,
- Abstract要約: 我々は,LLMに基づく科学的推論を厳格に評価するための,新しいベンチマークスイートとシミュレーションプラットフォームであるPhysGymを紹介する。
PhysGymの主な貢献は、エージェントに提供される事前知識のレベルを高度に制御することにある。
ベンチマークにはインタラクティブなシミュレーションが含まれており、エージェントは環境を積極的に調査する必要がある。
- 参考スコア(独自算出の注目度): 24.52206735857088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating the scientific discovery capabilities of large language model based agents, particularly how they cope with varying environmental complexity and utilize prior knowledge, requires specialized benchmarks currently lacking in the landscape. To address this gap, we introduce PhysGym, a novel benchmark suite and simulation platform for rigorously assessing LLM-based scientific reasoning in interactive physics environments. PhysGym's primary contribution lies in its sophisticated control over the level of prior knowledge provided to the agent. This allows researchers to dissect agent performance along axes including the complexity of the problem and the prior knowledge levels. The benchmark comprises a suite of interactive simulations, where agents must actively probe environments, gather data sequentially under constraints and formulate hypotheses about underlying physical laws. PhysGym provides standardized evaluation protocols and metrics for assessing hypothesis accuracy and model fidelity. We demonstrate the benchmark's utility by presenting results from baseline LLMs, showcasing its ability to differentiate capabilities based on varying priors and task complexity.
- Abstract(参考訳): 大規模言語モデルに基づくエージェントの科学的発見能力の評価、特に環境の複雑さに対処し、事前知識を活用するには、現在ランドスケープに欠けている特別なベンチマークが必要である。
このギャップに対処するために,対話型物理環境におけるLLMに基づく科学的推論を厳格に評価するための,新しいベンチマークスイートとシミュレーションプラットフォームであるPhysGymを紹介した。
PhysGymの主な貢献は、エージェントに提供される事前知識のレベルを高度に制御することにある。
これにより、研究者は、問題の複雑さや事前知識レベルなど、エージェントのパフォーマンスを軸に沿って判別することができる。
このベンチマークでは、エージェントが環境を積極的に調査し、制約の下でデータを逐次収集し、基礎となる物理法則に関する仮説を定式化しなければならない。
PhysGymは、仮説精度とモデル忠実度を評価するための標準化された評価プロトコルとメトリクスを提供する。
ベンチマークの有用性を,ベースラインLLMの結果を提示し,様々な事前やタスクの複雑さに基づいて,その能力の差別化能力を示す。
関連論文リスト
- Can Theoretical Physics Research Benefit from Language Agents? [50.57057488167844]
大規模言語モデル(LLM)は、様々な領域にわたって急速に進歩しているが、理論物理学研究への応用はまだ成熟していない。
このポジションペーパーは、LLMエージェントが、ドメイン知識やツールボックスと適切に統合された場合、理論的、計算的、応用物理学を加速するのに役立つと主張している。
マルチモーダルデータを処理し、検証可能な仮説を提案し、設計実験を行う物理特殊化LSMを構想する。
論文 参考訳(メタデータ) (2025-06-06T16:20:06Z) - APEX: Empowering LLMs with Physics-Based Task Planning for Real-time Insight [3.5385022178794805]
APEX(Anticipatory Physics-Enhanced Execution)は、大規模言語モデルに物理駆動型フォレストを組み、リアルタイムタスク計画のためのフレームワークである。
APEX は標準の LLM や VLM ベースのモデルを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-20T04:34:58Z) - Benchmarking LLMs' Swarm intelligence [50.544186914115045]
大規模言語モデル(LLM)は複雑な推論の可能性を秘めているが、マルチエージェントシステム(MAS)における創発的協調の能力はほとんど探索されていない。
分散エージェントとして機能するLDMのタスクを体系的に評価する新しいベンチマークであるSwarmBenchを紹介する。
本稿では,協調効率の指標を提案し,創発的グループダイナミクスを解析する。
論文 参考訳(メタデータ) (2025-05-07T12:32:01Z) - Physics-Learning AI Datamodel (PLAID) datasets: a collection of physics simulations for machine learning [0.15469999759898032]
PLAIDは物理シミュレーションのデータセットを表現および共有するためのフレームワークである。
PLAIDはシミュレーションデータを記述するための統一標準を定義する。
PLAID標準の下で,構造力学と計算流体力学を網羅した6つのデータセットをリリースする。
論文 参考訳(メタデータ) (2025-05-05T18:59:17Z) - Auto-Bench: An Automated Benchmark for Scientific Discovery in LLMs [23.608962459019278]
自然科学と社会科学の両方において科学的発見のための大規模言語モデル(LLM)を評価するための新しいベンチマークを導入する。
我々のベンチマークは因果グラフ発見の原理に基づいており、隠れ構造を発見し、有効な正当性を生成することを含む最適な決定を行うためのモデルに挑戦する。
我々は,GPT-4,Gemini,Qwen,Claude,Llamaを含む最先端のLCMを評価し,問題を複雑化するにつれて性能低下を観測した。
論文 参考訳(メタデータ) (2025-02-21T05:35:20Z) - MAPS: Advancing Multi-Modal Reasoning in Expert-Level Physical Science [62.96434290874878]
現在のMLLM(Multi-Modal Large Language Models)は、一般的な視覚的推論タスクにおいて強力な機能を示している。
我々は,MLLMに基づく物理知覚とシミュレーションによるマルチモーダル科学推論(MAPS)という新しいフレームワークを開発した。
MAPSは、専門家レベルのマルチモーダル推論タスクを物理的知覚モデル(PPM)を介して物理図理解に分解し、シミュレータを介して物理的知識で推論する。
論文 参考訳(メタデータ) (2025-01-18T13:54:00Z) - Using Machine Learning to Discover Parsimonious and Physically-Interpretable Representations of Catchment-Scale Rainfall-Runoff Dynamics [1.1510009152620668]
機械学習の未調査の側面は、システム機能に関するより良い洞察を促進するために、最小限の最適表現を開発する方法である。
我々の見解では、MLに基づくモデリングは、物理的概念的意味において本質的に容易に解釈できる計算単位をベースとすべきである。
ラムプ・モデリングの文脈では、物理的解釈可能性と予測性能は、相対的に類似した分散状態のマルチフロー・パス・ネットワークを用いて達成可能であることを示す。
論文 参考訳(メタデータ) (2024-12-06T08:30:01Z) - LLMPhy: Complex Physical Reasoning Using Large Language Models and World Models [35.01842161084472]
そこで我々は,TraySimという物理推論タスクとデータセットを提案する。
私たちのタスクは、外部の影響を受けるトレイ上のいくつかのオブジェクトのダイナミクスを予測することです。
LLMの物理知識とプログラム合成能力を活用するゼロショットブラックボックス最適化フレームワークであるLLMPhyを提案する。
この結果から,LLMと物理エンジンの組み合わせにより,最先端のゼロショット物理推論性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-11-12T18:56:58Z) - LLM and Simulation as Bilevel Optimizers: A New Paradigm to Advance Physical Scientific Discovery [141.39722070734737]
本稿では,大規模言語モデルの知識駆動型抽象推論能力をシミュレーションの計算力で強化することを提案する。
本稿では,2段階最適化フレームワークであるSGA(Scientific Generative Agent)を紹介する。
法発見と分子設計における枠組みの有効性を実証するための実験を行った。
論文 参考訳(メタデータ) (2024-05-16T03:04:10Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Physics Inspired Hybrid Attention for SAR Target Recognition [61.01086031364307]
本稿では,物理にヒントを得たハイブリットアテンション(PIHA)機構と,この問題に対処するためのOFA評価プロトコルを提案する。
PIHAは、物理的情報の高レベルなセマンティクスを活用して、ターゲットの局所的なセマンティクスを認識した特徴群を活性化し、誘導する。
提案手法は,ASCパラメータが同じ12のテストシナリオにおいて,他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-09-27T14:39:41Z) - An Extensible Benchmark Suite for Learning to Simulate Physical Systems [60.249111272844374]
我々は、統一されたベンチマークと評価プロトコルへの一歩を踏み出すために、一連のベンチマーク問題を導入する。
本稿では,4つの物理系と,広く使用されている古典的時間ベースおよび代表的なデータ駆動手法のコレクションを提案する。
論文 参考訳(メタデータ) (2021-08-09T17:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。