論文の概要: PhyX: Does Your Model Have the "Wits" for Physical Reasoning?
- arxiv url: http://arxiv.org/abs/2505.15929v1
- Date: Wed, 21 May 2025 18:33:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.866474
- Title: PhyX: Does Your Model Have the "Wits" for Physical Reasoning?
- Title(参考訳): PhyX:あなたのモデルは物理推論のための"Wits"を持っているか?
- Authors: Hui Shen, Taiqiang Wu, Qi Han, Yunta Hsieh, Jizhou Wang, Yuyue Zhang, Yuxin Cheng, Zijian Hao, Yuansheng Ni, Xin Wang, Zhongwei Wan, Kai Zhang, Wendong Xu, Jing Xiong, Ping Luo, Wenhu Chen, Chaofan Tao, Zhuoqing Mao, Ngai Wong,
- Abstract要約: 既存のベンチマークでは、物理的な推論という、インテリジェンスの重要な側面を捉えられません。
視覚シナリオにおける物理基底推論のモデルキャパシティを評価するために設計された,最初の大規模ベンチマークであるPhyXを紹介する。
- 参考スコア(独自算出の注目度): 49.083544963243206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing benchmarks fail to capture a crucial aspect of intelligence: physical reasoning, the integrated ability to combine domain knowledge, symbolic reasoning, and understanding of real-world constraints. To address this gap, we introduce PhyX: the first large-scale benchmark designed to assess models capacity for physics-grounded reasoning in visual scenarios. PhyX includes 3K meticulously curated multimodal questions spanning 6 reasoning types across 25 sub-domains and 6 core physics domains: thermodynamics, electromagnetism, mechanics, modern physics, optics, and wave\&acoustics. In our comprehensive evaluation, even state-of-the-art models struggle significantly with physical reasoning. GPT-4o, Claude3.7-Sonnet, and GPT-o4-mini achieve only 32.5\%, 42.2\%, and 45.8\% accuracy respectively-performance gaps exceeding 29\% compared to human experts. Our analysis exposes critical limitations in current models: over-reliance on memorized disciplinary knowledge, excessive dependence on mathematical formulations, and surface-level visual pattern matching rather than genuine physical understanding. We provide in-depth analysis through fine-grained statistics, detailed case studies, and multiple evaluation paradigms to thoroughly examine physical reasoning capabilities. To ensure reproducibility, we implement a compatible evaluation protocol based on widely-used toolkits such as VLMEvalKit, enabling one-click evaluation.
- Abstract(参考訳): 既存のベンチマークでは、物理的な推論、ドメイン知識を組み合わせた統合能力、象徴的な推論、現実世界の制約の理解といった、インテリジェンスの重要な側面を捉えられていない。
このギャップに対処するために、視覚シナリオにおける物理基底推論のモデルキャパシティを評価するために設計された最初の大規模ベンチマークであるPhyXを紹介する。
PhyXには、25のサブドメインと6つのコア物理領域(熱力学、電磁磁気学、力学、現代物理学、光学、波動音響学)にまたがる6つの推論タイプにまたがる3Kの細心の注意深いマルチモーダル質問が含まれている。
総合的な評価では、最先端のモデルでさえ、物理的推論にかなり苦労しています。
GPT-4o、Claude3.7-Sonnet、GPT-o4-miniはそれぞれ32.5\%、42.2\%、45.8\%である。
我々の分析は、記憶されたディシプリナ知識への過度依存、数学的定式化への過度依存、真の物理的理解よりも表面レベルの視覚的パターンマッチングといった、現在のモデルにおける重要な制限を明らかにしている。
本研究では,詳細な統計分析,詳細なケーススタディ,および複数の評価パラダイムを用いて,身体的推論能力の徹底的な検証を行う。
再現性を確保するため,VLMEvalKitのような広く使われているツールキットをベースとした,一クリックで評価可能な互換性のある評価プロトコルを実装した。
関連論文リスト
- ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models [37.54872845368151]
視覚的推論によってのみ解決可能な合成データセットを用いてケーススタディを行う。
次に、1,162人の専門家が注釈を付けた質問を含む新しいチャート質問回答(QA)ベンチマークであるChartMuseumを紹介します。
人間は93%の精度を達成しているが、最高のパフォーマンスモデルであるGemini-2.5-Proは63.0%しか達成できず、主要なオープンソースであるLVLM Qwen2.5-VL-72B-Instructは38.5%しか達成していない。
論文 参考訳(メタデータ) (2025-05-19T17:59:27Z) - PHYBench: Holistic Evaluation of Physical Perception and Reasoning in Large Language Models [33.45006997591683]
PHYBenchは、高校から物理オリンピックの難易度まで、500の物理問題のベンチマークである。
PHYBenchはオリジナルのコンテンツを通じてデータの汚染に対処し、欠陥のあるアイテムを除去するために体系的なキュレーションパイプラインを使用する。
PHYBenchはより多くのトークンを活性化し、推論モデル間のより強力な微分を提供する。
論文 参考訳(メタデータ) (2025-04-22T17:53:29Z) - PhysReason: A Comprehensive Benchmark towards Physics-Based Reasoning [36.193595420239845]
1200プロブレムの大規模言語モデル評価ベンチマークであるPhysReasonを提案する。
問題は平均8.1の解ステップが必要で、ハードは15.6である。
Deepseek-R1、Gemini-2.0-Flash-Thinking、o3-mini-highといったトップパフォーマンスモデルは、回答レベルの評価で60%以下を実現している。
論文 参考訳(メタデータ) (2025-02-17T17:24:14Z) - Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation [51.750634349748736]
テキスト・ツー・ビデオ(T2V)モデルは複雑なプロンプトの可視化に大きく貢献している。
しかし、直感的な物理を正確に表現するこれらのモデルの能力はほとんど解明されていない。
本稿では,T2V生成における物理コモンセンスの正しさを評価するためにPhyGenBenchを導入する。
論文 参考訳(メタデータ) (2024-10-07T17:56:04Z) - PhyBench: A Physical Commonsense Benchmark for Evaluating Text-to-Image Models [50.33699462106502]
テキスト・トゥ・イメージ(T2I)モデルは、物理コモンセンスと整合した画像を生成するのにしばしば失敗する。
現在のT2I評価ベンチマークは、精度、バイアス、安全性などの指標に焦点を当て、モデルの内部知識の評価を無視している。
メカニクス,光学,熱力学,材料特性の4つのカテゴリに700のプロンプトを含む総合的なT2I評価データセットであるPhyBenchを紹介する。
論文 参考訳(メタデータ) (2024-06-17T17:49:01Z) - ContPhy: Continuum Physical Concept Learning and Reasoning from Videos [86.63174804149216]
ContPhyは、マシン物理常識を評価するための新しいベンチマークである。
私たちは、さまざまなAIモデルを評価し、ContPhyで満足なパフォーマンスを達成するのに依然として苦労していることがわかった。
また、近年の大規模言語モデルとパーティクルベースの物理力学モデルを組み合わせるためのオラクルモデル(ContPRO)を導入する。
論文 参考訳(メタデータ) (2024-02-09T01:09:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。