論文の概要: PhysicsArena: The First Multimodal Physics Reasoning Benchmark Exploring Variable, Process, and Solution Dimensions
- arxiv url: http://arxiv.org/abs/2505.15472v1
- Date: Wed, 21 May 2025 12:48:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.645917
- Title: PhysicsArena: The First Multimodal Physics Reasoning Benchmark Exploring Variable, Process, and Solution Dimensions
- Title(参考訳): PhysicsArena: 可変、プロセス、ソリューションの次元を探索する最初のマルチモーダル物理推論ベンチマーク
- Authors: Song Dai, Yibo Yan, Jiamin Su, Dongfang Zihao, Yubo Gao, Yonghua Hei, Jungang Li, Junyan Zhang, Sicheng Tao, Zhuoran Gao, Xuming Hu,
- Abstract要約: PhysicsArenaは、MLLMのマルチモーダル物理推論能力の評価と向上のための総合的なプラットフォームを提供することを目指している。
MLLMは様々な推論タスクにおいて顕著な能力を示してきたが、複雑な物理推論への応用は未解明のままである。
- 参考スコア(独自算出の注目度): 9.428916253383402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated remarkable capabilities in diverse reasoning tasks, yet their application to complex physics reasoning remains underexplored. Physics reasoning presents unique challenges, requiring grounding in physical conditions and the interpretation of multimodal information. Current physics benchmarks are limited, often focusing on text-only inputs or solely on problem-solving, thereby overlooking the critical intermediate steps of variable identification and process formulation. To address these limitations, we introduce PhysicsArena, the first multimodal physics reasoning benchmark designed to holistically evaluate MLLMs across three critical dimensions: variable identification, physical process formulation, and solution derivation. PhysicsArena aims to provide a comprehensive platform for assessing and advancing the multimodal physics reasoning abilities of MLLMs.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、多種多様な推論タスクにおいて顕著な能力を示してきたが、複雑な物理学的推論への応用は未解明のままである。
物理推論は、物理的条件の根拠とマルチモーダル情報の解釈を必要とする、ユニークな課題を提示する。
現在の物理学のベンチマークは限定的であり、しばしばテキストのみの入力に焦点をあてたり、問題解決にのみ焦点をあてて、変数の識別とプロセスの定式化において重要な中間段階を見越す。
これらの制約に対処するために,変数識別,物理プロセスの定式化,解導出という3つの重要な次元にわたるMLLMの全体的評価を目的とした,最初のマルチモーダル物理推論ベンチマークであるPhysicalArenaを導入する。
PhysicsArenaは、MLLMのマルチモーダル物理推論能力の評価と向上のための総合的なプラットフォームを提供することを目指している。
関連論文リスト
- Position: Multimodal Large Language Models Can Significantly Advance Scientific Reasoning [51.11965014462375]
MLLM(Multimodal Large Language Models)は、テキスト、画像、その他のモダリティを統合する。
本稿では,MLLMが数学,物理,化学,生物学などの分野にまたがる科学的推論を著しく前進させることができることを論じる。
論文 参考訳(メタデータ) (2025-02-05T04:05:27Z) - MAPS: Advancing Multi-Modal Reasoning in Expert-Level Physical Science [62.96434290874878]
現在のMLLM(Multi-Modal Large Language Models)は、一般的な視覚的推論タスクにおいて強力な機能を示している。
我々は,MLLMに基づく物理知覚とシミュレーションによるマルチモーダル科学推論(MAPS)という新しいフレームワークを開発した。
MAPSは、専門家レベルのマルチモーダル推論タスクを物理的知覚モデル(PPM)を介して物理図理解に分解し、シミュレータを介して物理的知識で推論する。
論文 参考訳(メタデータ) (2025-01-18T13:54:00Z) - Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark [73.27104042215207]
EMMAは,数学,物理,化学,コーディングにまたがる有機マルチモーダル推論を対象とするベンチマークである。
EMMAタスクは、各モードで独立に推論することで対処できない高度なクロスモーダル推論を要求する。
EMMA上での最先端MLLMの評価は、複雑なマルチモーダルおよびマルチステップ推論タスクの処理において、重大な制限を生じさせる。
論文 参考訳(メタデータ) (2025-01-09T18:55:52Z) - Physics Reasoner: Knowledge-Augmented Reasoning for Solving Physics Problems with Large Language Models [41.88825441287559]
既存の大規模言語モデル(LLM)は、知識の不足や誤った知識アプリケーションのために頻繁に失敗する。
LLMを用いて物理問題を解くための知識強化フレームワークである物理推論器を提案する。
物理学的な問題を考えると、物理学的推論は問題解析、公式検索、ガイド付き推論という3つの段階を通して解決する。
経験的に、物理推論器は知識不足と不正確な応用の問題を緩和し、SciBenchの最先端性能を平均精度5.8%で達成した。
論文 参考訳(メタデータ) (2024-12-18T12:33:50Z) - LLMPhy: Complex Physical Reasoning Using Large Language Models and World Models [35.01842161084472]
そこで我々は,TraySimという物理推論タスクとデータセットを提案する。
私たちのタスクは、外部の影響を受けるトレイ上のいくつかのオブジェクトのダイナミクスを予測することです。
LLMの物理知識とプログラム合成能力を活用するゼロショットブラックボックス最適化フレームワークであるLLMPhyを提案する。
この結果から,LLMと物理エンジンの組み合わせにより,最先端のゼロショット物理推論性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-11-12T18:56:58Z) - SimLM: Can Language Models Infer Parameters of Physical Systems? [56.38608628187024]
物理系におけるパラメータ推論におけるLarge Language Models (LLM) の性能について検討する。
実験の結果,単純なシステムであっても,本課題には適していないことが示唆された。
物理シミュレータを用いてLLMのコンテキストを拡大する探索の有望な方向を提案する。
論文 参考訳(メタデータ) (2023-12-21T12:05:19Z) - Physics simulation capabilities of LLMs [0.0]
大規模言語モデル(LLM)は、学部レベルから大学院レベルの物理学教科書の問題を解くことができ、コーディングに精通している。
本稿では、PhDレベルから研究レベルの計算物理問題に対するSOTA (State-of-the-art) LLMの評価を行う。
論文 参考訳(メタデータ) (2023-12-04T18:06:41Z) - PlasticineLab: A Soft-Body Manipulation Benchmark with Differentiable
Physics [89.81550748680245]
PasticineLabと呼ばれる新しい微分可能な物理ベンチマークを導入する。
各タスクにおいて、エージェントはマニピュレータを使用して、プラスチックを所望の構成に変形させる。
本稿では,既存の強化学習(RL)手法と勾配に基づく手法について評価する。
論文 参考訳(メタデータ) (2021-04-07T17:59:23Z) - Scalable Differentiable Physics for Learning and Control [99.4302215142673]
微分物理学は、物理的対象や環境を含む問題を学習し、制御するための強力なアプローチである。
我々は、多数のオブジェクトとその相互作用をサポートすることができる微分可能物理学のためのスケーラブルなフレームワークを開発する。
論文 参考訳(メタデータ) (2020-07-04T19:07:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。