論文の概要: MaD Physics: Evaluating information seeking under constraints in physical environments
- arxiv url: http://arxiv.org/abs/2605.10820v1
- Date: Mon, 11 May 2026 16:37:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.999753
- Title: MaD Physics: Evaluating information seeking under constraints in physical environments
- Title(参考訳): MaD物理:物理環境における制約条件下での情報探索の評価
- Authors: Moksh Jain, Mehdi Bennani, Johannes Bausch, Yuri Chervonyi, Bogdan Georgiev, Simon Osindero, Nenad Tomašev,
- Abstract要約: 測定は、私たちの理解を改善するために、新しい現象を明らかにすることによって、科学的プロセスを促進する。
科学的発見のためのエージェントを評価するための既存のベンチマークは、静的知識に基づく推論か、制約のない実験的な設計タスクに焦点を当てている。
本研究では,測定の質と量に制約のある情報的測定と結論をエージェントが行う能力を評価するためのベンチマークである測定・発見物理を提案する。
- 参考スコア(独自算出の注目度): 9.838647620046155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientific discovery is fundamentally a resource-constrained process that requires navigating complex trade-offs between the quality and quantity of measurements due to physical and cost constraints. Measurements drive the scientific process by revealing novel phenomena to improve our understanding. Existing benchmarks for evaluating agents for scientific discovery focus on either static knowledge-based reasoning or unconstrained experimental design tasks, and do not capture the ability to make measurements and plan under constraints. To bridge this gap, we propose Measuring and Discovering Physics (MaD Physics), a benchmark to evaluate the ability of agents to make informative measurements and conclusions subject to constraints on the quality and quantity of measurements. The benchmark consists of three environments, each based on a distinct physical law. To mitigate contamination from existing knowledge, MaD Physics includes altered physical laws. In each trial, the agent makes measurements of the system until it exhausts an allotted budget and then the agent has to infer the underlying physical law to make predictions about the state of the system in the future. MaD Physics evaluates two fundamental capabilities of scientific agents: inferring models from data and planning under constraints. We also demonstrate how MaD Physics can be used to evaluate other capabilities such as multimodality and in-context learning. We benchmark agents on MaD Physics using four Gemini models (2.5 Flash Lite, 2.5 Flash, 2.5 Pro, and 3 Flash), identifying shortcomings in their structured exploration and data collection capabilities and highlighting directions to improve their scientific reasoning.
- Abstract(参考訳): 科学的発見は、基本的には、物理的およびコストの制約による測定の品質と量の間の複雑なトレードオフをナビゲートする必要がある、リソースに制約されたプロセスである。
測定は、私たちの理解を改善するために、新しい現象を明らかにすることによって、科学的プロセスを促進する。
科学的発見のためのエージェントを評価するための既存のベンチマークは、静的知識に基づく推論または制約のない実験的な設計タスクに焦点を当てており、制約の下で測定と計画を行う能力は捉えていない。
このギャップを埋めるために,測定・発見物理(MaD Physics)のベンチマークを提案し,測定の質と量に制約のある情報的測定と結論をエージェントが行う能力を評価する。
ベンチマークは3つの環境で構成され、それぞれ異なる物理法則に基づいている。
既存の知識から汚染を緩和するために、MaD Physicsは変更された物理法則を含んでいる。
各試験では、エージェントは割り当てられた予算が尽きるまでシステムの計測を行い、その後エージェントはシステムの状態を予測するために基礎となる物理法則を推論しなければならない。
MaD Physicsは、データからのモデル推論と制約下での計画という、科学エージェントの2つの基本的な能力を評価している。
また、マルチモーダリティや文脈内学習などの他の能力を評価するために、MaD Physicsをどのように利用できるかを示す。
我々は、4つのGeminiモデル(2.5 Flash Lite、2.5 Flash、2.5 Pro、および3 Flash)を用いてMaD Physicsのエージェントをベンチマークし、構造化された探索とデータ収集能力の欠点を特定し、科学的推論を改善するための方向性を強調した。
関連論文リスト
- NICE FACT: Diagnosing and Calibrating VLMs in Quantitative Reasoning for Kinematic Physics [65.02899948986969]
この研究は、視覚言語モデルが物理的世界をどのように知覚するかを根本的に理解し、物理法則を活用することを目的としている。
運動物理学の量的推論を明示的に分解する双対診断パラダイムであるNICEとFACTを提案する。
NICEは、我々の新しい地区インフォームドキャリブレーション手法と、信頼性の評価とキャリブレーションのための新しいメトリクスについて研究する。
論文 参考訳(メタデータ) (2026-05-08T20:17:44Z) - PhysicsMind: Sim and Real Mechanics Benchmarking for Physical Reasoning and Prediction in Foundational VLMs and World Models [40.16417939211015]
MLLM(Multimodal Large Language Models)やビデオワールドモデルは、数学的、常識的、視覚的推論において大きく進歩している。
この問題を計測しようとする既存のベンチマークは、合成された視覚的質問応答テンプレート、あるいは物理的な法則によってビデオがどれだけうまく機能するかを測定するための知覚的ビデオ品質に焦点を当てている。
我々は,3つの標準原理(Center of Mass, Lever Equilibrium, Newton's First Law)について,法に一貫性のある推論と生成を評価する統一ベンチマークであるPhysicalMindを紹介する。
論文 参考訳(メタデータ) (2026-01-22T14:33:01Z) - LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference [57.086932851733145]
ビデオ拡散モデルにおける直感的な物理を評価するトレーニング不要な方法であるLikePhysを紹介した。
現在のビデオ拡散モデルにおける直観的物理理解のベンチマークを行う。
経験的結果は、現在のモデルが複雑でカオス的な力学に苦しむにもかかわらず、モデルキャパシティと推論設定スケールとしての物理理解の改善傾向が明らかであることを示している。
論文 参考訳(メタデータ) (2025-10-13T15:19:07Z) - From Physics to Machine Learning and Back: Part II - Learning and Observational Bias in PHM [52.64097278841485]
物理インフォームドモデリングとデータストラテジーによる学習と観察バイアスの導入は、モデルを物理的に一貫した信頼性のある予測へと導くことができるかを検討する。
メタラーニングや少数ショットラーニングなどの高速適応手法をドメイン一般化手法とともに検討する。
論文 参考訳(メタデータ) (2025-09-25T14:15:43Z) - Can Theoretical Physics Research Benefit from Language Agents? [50.57057488167844]
大規模言語モデル(LLM)は、様々な領域にわたって急速に進歩しているが、理論物理学研究への応用はまだ成熟していない。
このポジションペーパーは、LLMエージェントが、ドメイン知識やツールボックスと適切に統合された場合、理論的、計算的、応用物理学を加速するのに役立つと主張している。
マルチモーダルデータを処理し、検証可能な仮説を提案し、設計実験を行う物理特殊化LSMを構想する。
論文 参考訳(メタデータ) (2025-06-06T16:20:06Z) - PhyX: Does Your Model Have the "Wits" for Physical Reasoning? [49.083544963243206]
既存のベンチマークでは、物理的な推論という、インテリジェンスの重要な側面を捉えられません。
視覚シナリオにおける物理基底推論のモデルキャパシティを評価するために設計された,最初の大規模ベンチマークであるPhyXを紹介する。
論文 参考訳(メタデータ) (2025-05-21T18:33:50Z) - Scaling Physical Reasoning with the PHYSICS Dataset [39.960500815534836]
PHYSICSは、被験者と難易度にまたがる16,568の高品質な物理問題を含むデータセットである。
力学、電磁気学、熱力学、光学、現代物理学の5つの分野を網羅している。
また、高校から大学院レベルの物理学コースまで幅広い難易度がある。
論文 参考訳(メタデータ) (2025-05-21T17:06:28Z) - Towards Visual Discrimination and Reasoning of Real-World Physical Dynamics: Physics-Grounded Anomaly Detection [2.1013864820763755]
人間は、物体条件の物理的知識に基づいて、知覚、相互作用、推論によって現実世界の物体の異常を検出する。
Phys-ADは、産業異常検出のための、最初の大規模で現実世界の物理地上ビデオデータセットである。
このデータセットには、22の現実世界のオブジェクトカテゴリにわたる6400以上のビデオが含まれており、ロボットアームやモーターと相互作用し、47種類の異常を示す。
論文 参考訳(メタデータ) (2025-03-05T14:49:08Z) - Physics-informed Reinforcement Learning for Perception and Reasoning
about Fluids [0.0]
本研究では,流体知覚と観測からの推論のための物理インフォームド強化学習戦略を提案する。
本研究では,コモディティカメラで自由表面を観察した未確認液体の追跡(知覚)と解析(推論)を行う手法を開発した。
論文 参考訳(メタデータ) (2022-03-11T07:01:23Z) - Visual Grounding of Learned Physical Models [66.04898704928517]
人間は、物体の物理的特性を直感的に認識し、複雑な相互作用に従事している場合でも、その動きを予測する。
我々は、物理を同時に推論し、視覚と力学の先行に基づく将来の予測を行うニューラルモデルを提案する。
実験により、我々のモデルはいくつかの観測範囲内で物理的特性を推測できることが示され、モデルが目に見えないシナリオに迅速に適応し、将来正確な予測を行うことができる。
論文 参考訳(メタデータ) (2020-04-28T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。