論文の概要: PHYBench: Holistic Evaluation of Physical Perception and Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2504.16074v1
- Date: Tue, 22 Apr 2025 17:53:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 16:58:25.041502
- Title: PHYBench: Holistic Evaluation of Physical Perception and Reasoning in Large Language Models
- Title(参考訳): PHYBench:大規模言語モデルにおける物理的知覚と推論の全体的評価
- Authors: Shi Qiu, Shaoyang Guo, Zhuo-Yang Song, Yunbo Sun, Zeyu Cai, Jiashen Wei, Tianyu Luo, Yixuan Yin, Haoxu Zhang, Yi Hu, Chenyang Wang, Chencheng Tang, Haoling Chang, Qi Liu, Ziheng Zhou, Tianyu Zhang, Jingtian Zhang, Zhangyi Liu, Minghao Li, Yuku Zhang, Boxuan Jing, Xianqi Yin, Yutong Ren, Zizhuo Fu, Weike Wang, Xudong Tian, Anqi Lv, Laifu Man, Jianxiang Li, Feiyu Tao, Qihua Sun, Zhou Liang, Yushu Mu, Zhongxuan Li, Jing-Jun Zhang, Shutao Zhang, Xiaotian Li, Xingqi Xia, Jiawei Lin, Zheyu Shen, Jiahang Chen, Qiuhao Xiong, Binran Wang, Fengyuan Wang, Ziyang Ni, Bohan Zhang, Fan Cui, Changkun Shao, Qing-Hong Cao, Ming-xing Luo, Muhan Zhang, Hua Xing Zhu,
- Abstract要約: PHYBenchは、物理コンテキストにおける大規模言語モデル(LLM)の推論能力を評価するためのベンチマークである。
現実の物理シナリオに基づく500の物理問題からなり、力学、電磁力学、熱力学、光学、近代物理学、先進物理学をカバーしている。
また,数式間の編集距離に基づく新しい評価指標であるExpression Edit Distance (EED) Scoreを提案する。
- 参考スコア(独自算出の注目度): 30.597050689757605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce PHYBench, a novel, high-quality benchmark designed for evaluating reasoning capabilities of large language models (LLMs) in physical contexts. PHYBench consists of 500 meticulously curated physics problems based on real-world physical scenarios, designed to assess the ability of models to understand and reason about realistic physical processes. Covering mechanics, electromagnetism, thermodynamics, optics, modern physics, and advanced physics, the benchmark spans difficulty levels from high school exercises to undergraduate problems and Physics Olympiad challenges. Additionally, we propose the Expression Edit Distance (EED) Score, a novel evaluation metric based on the edit distance between mathematical expressions, which effectively captures differences in model reasoning processes and results beyond traditional binary scoring methods. We evaluate various LLMs on PHYBench and compare their performance with human experts. Our results reveal that even state-of-the-art reasoning models significantly lag behind human experts, highlighting their limitations and the need for improvement in complex physical reasoning scenarios. Our benchmark results and dataset are publicly available at https://phybench-official.github.io/phybench-demo/.
- Abstract(参考訳): 我々は,大規模言語モデル(LLM)の物理的文脈における推論能力を評価するために設計された,新しい高品質なベンチマークであるPHYBenchを紹介する。
PHYBenchは、現実的な物理過程を理解し、推論するモデルの能力を評価するために設計された、現実世界の物理シナリオに基づく500の厳密にキュレートされた物理問題で構成されている。
力学、電磁気学、熱力学、光学、近代物理学、先進物理学をカバーし、このベンチマークは高校の演習から学部の課題、物理オリンピックの課題まで、難易度にまで及ぶ。
さらに,数式間の編集距離に基づく新しい評価尺度であるExpression Edit Distance (EED) Scoreを提案する。
我々はPHYBench上で様々なLLMを評価し,その性能を人間専門家と比較した。
我々の結果は、最先端の推論モデルでさえ、人間の専門家よりかなり遅れており、それらの制限と複雑な物理的推論シナリオの改善の必要性を強調しています。
ベンチマーク結果とデータセットはhttps://phybench-official.github.io/phybench-demo/で公開されています。
関連論文リスト
- PhysReason: A Comprehensive Benchmark towards Physics-Based Reasoning [36.193595420239845]
1200プロブレムの大規模言語モデル評価ベンチマークであるPhysReasonを提案する。
問題は平均8.1の解ステップが必要で、ハードは15.6である。
Deepseek-R1、Gemini-2.0-Flash-Thinking、o3-mini-highといったトップパフォーマンスモデルは、回答レベルの評価で60%以下を実現している。
論文 参考訳(メタデータ) (2025-02-17T17:24:14Z) - UGPhysics: A Comprehensive Benchmark for Undergraduate Physics Reasoning with Large Language Models [39.917074900737575]
大規模言語モデル(LLM)は、複雑な推論タスクを解く際、顕著な能力を示した。
物理学の推論の領域は、非常に少ない注意を払われたユニークな課題を提示する。
既存のベンチマークは、学部レベルの物理学の広さと深さでLLMの能力を評価するのに不足することが多い。
論文 参考訳(メタデータ) (2025-02-01T06:42:02Z) - LLMPhy: Complex Physical Reasoning Using Large Language Models and World Models [35.01842161084472]
そこで我々は,TraySimという物理推論タスクとデータセットを提案する。
私たちのタスクは、外部の影響を受けるトレイ上のいくつかのオブジェクトのダイナミクスを予測することです。
LLMの物理知識とプログラム合成能力を活用するゼロショットブラックボックス最適化フレームワークであるLLMPhyを提案する。
この結果から,LLMと物理エンジンの組み合わせにより,最先端のゼロショット物理推論性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-11-12T18:56:58Z) - Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation [51.750634349748736]
テキスト・ツー・ビデオ(T2V)モデルは複雑なプロンプトの可視化に大きく貢献している。
しかし、直感的な物理を正確に表現するこれらのモデルの能力はほとんど解明されていない。
本稿では,T2V生成における物理コモンセンスの正しさを評価するためにPhyGenBenchを導入する。
論文 参考訳(メタデータ) (2024-10-07T17:56:04Z) - Exploring the Limits of Fine-grained LLM-based Physics Inference via Premise Removal Interventions [0.0]
言語モデル(LM)は複雑な数学的推論を行う際に幻覚を与える。
物理的な文脈では、記号的な操作は複雑な意味論を満たすことが要求される。
この設定では、LMsの数学的推論は物理学的インフォームドされていない。
論文 参考訳(メタデータ) (2024-04-29T02:43:23Z) - PhyRecon: Physically Plausible Neural Scene Reconstruction [81.73129450090684]
PHYRECONは、微分可能なレンダリングと微分可能な物理シミュレーションの両方を利用して暗黙的な表面表現を学習する最初のアプローチである。
この設計の中心は、SDFに基づく暗黙の表現と明示的な表面点の間の効率的な変換である。
また,物理シミュレータの安定性も向上し,全データセットに対して少なくとも40%の改善が得られた。
論文 参考訳(メタデータ) (2024-04-25T15:06:58Z) - OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems [62.06169250463104]
我々はOlympiadレベルのバイリンガル・マルチモーダル・サイエンス・ベンチマークであるOlympiadBenchを紹介し、Olympiadレベルの数学と物理学のコンペティションの8,476の問題を特徴とする。
最も優れたモデルであるGPT-4Vはオリンピアドベンチで平均17.97%を獲得し、物理学ではわずか10.74%である。
GPT-4Vの分析では、幻覚、知識欠失、論理的誤信などの問題が指摘されている。
論文 参考訳(メタデータ) (2024-02-21T18:49:26Z) - ContPhy: Continuum Physical Concept Learning and Reasoning from Videos [86.63174804149216]
ContPhyは、マシン物理常識を評価するための新しいベンチマークである。
私たちは、さまざまなAIモデルを評価し、ContPhyで満足なパフォーマンスを達成するのに依然として苦労していることがわかった。
また、近年の大規模言語モデルとパーティクルベースの物理力学モデルを組み合わせるためのオラクルモデル(ContPRO)を導入する。
論文 参考訳(メタデータ) (2024-02-09T01:09:21Z) - GRASP: A novel benchmark for evaluating language GRounding And Situated Physics understanding in multimodal language models [4.354672867211922]
本稿では,ビデオベースマルチモーダル大言語モデル(LLM)の言語基盤と物理的理解能力を評価するための新しいベンチマークGRASPを提案する。
我々は、最先端のマルチモーダルLCMの評価にそれを用いている。
評価の結果,これらのモデルの言語基盤化や直感的な物理能力に重大な欠陥があることが判明した。
論文 参考訳(メタデータ) (2023-11-15T15:38:28Z) - Physion++: Evaluating Physical Scene Understanding that Requires Online
Inference of Different Physical Properties [100.19685489335828]
この研究は、人工システムにおける視覚的身体的予測を厳格に評価する新しいデータセットとベンチマークであるPhysylon++を提案する。
正確な予測が質量、摩擦、弾性、変形性などの特性の推定に依存するシナリオをテストする。
我々は,様々なレベルの学習と組込み知識にまたがる最先端予測モデルの性能を評価し,その性能を人間の予測と比較した。
論文 参考訳(メタデータ) (2023-06-27T17:59:33Z) - Dynamic Visual Reasoning by Learning Differentiable Physics Models from
Video and Language [92.7638697243969]
視覚概念を協調的に学習し,映像や言語から物体の物理モデルを推定する統合フレームワークを提案する。
これは視覚認識モジュール、概念学習モジュール、微分可能な物理エンジンの3つのコンポーネントをシームレスに統合することで実現される。
論文 参考訳(メタデータ) (2021-10-28T17:59:13Z) - Visual Grounding of Learned Physical Models [66.04898704928517]
人間は、物体の物理的特性を直感的に認識し、複雑な相互作用に従事している場合でも、その動きを予測する。
我々は、物理を同時に推論し、視覚と力学の先行に基づく将来の予測を行うニューラルモデルを提案する。
実験により、我々のモデルはいくつかの観測範囲内で物理的特性を推測できることが示され、モデルが目に見えないシナリオに迅速に適応し、将来正確な予測を行うことができる。
論文 参考訳(メタデータ) (2020-04-28T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。