Fugu-MT 論文翻訳(概要): PhysicsArena: The First Multimodal Physics Reasoning Benchmark Exploring Variable, Process, and Solution Dimensions

論文の概要: PhysicsArena: The First Multimodal Physics Reasoning Benchmark Exploring Variable, Process, and Solution Dimensions

arxiv url: http://arxiv.org/abs/2505.15472v1
Date: Wed, 21 May 2025 12:48:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-22 15:42:59.645917
Title: PhysicsArena: The First Multimodal Physics Reasoning Benchmark Exploring Variable, Process, and Solution Dimensions
Title（参考訳）: PhysicsArena: 可変、プロセス、ソリューションの次元を探索する最初のマルチモーダル物理推論ベンチマーク
Authors: Song Dai, Yibo Yan, Jiamin Su, Dongfang Zihao, Yubo Gao, Yonghua Hei, Jungang Li, Junyan Zhang, Sicheng Tao, Zhuoran Gao, Xuming Hu,
Abstract要約: PhysicsArenaは、MLLMのマルチモーダル物理推論能力の評価と向上のための総合的なプラットフォームを提供することを目指している。 MLLMは様々な推論タスクにおいて顕著な能力を示してきたが、複雑な物理推論への応用は未解明のままである。
参考スコア（独自算出の注目度）: 9.428916253383402
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal Large Language Models (MLLMs) have demonstrated remarkable capabilities in diverse reasoning tasks, yet their application to complex physics reasoning remains underexplored. Physics reasoning presents unique challenges, requiring grounding in physical conditions and the interpretation of multimodal information. Current physics benchmarks are limited, often focusing on text-only inputs or solely on problem-solving, thereby overlooking the critical intermediate steps of variable identification and process formulation. To address these limitations, we introduce PhysicsArena, the first multimodal physics reasoning benchmark designed to holistically evaluate MLLMs across three critical dimensions: variable identification, physical process formulation, and solution derivation. PhysicsArena aims to provide a comprehensive platform for assessing and advancing the multimodal physics reasoning abilities of MLLMs.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)は、多種多様な推論タスクにおいて顕著な能力を示してきたが、複雑な物理学的推論への応用は未解明のままである。物理推論は、物理的条件の根拠とマルチモーダル情報の解釈を必要とする、ユニークな課題を提示する。現在の物理学のベンチマークは限定的であり、しばしばテキストのみの入力に焦点をあてたり、問題解決にのみ焦点をあてて、変数の識別とプロセスの定式化において重要な中間段階を見越す。これらの制約に対処するために,変数識別,物理プロセスの定式化,解導出という3つの重要な次元にわたるMLLMの全体的評価を目的とした,最初のマルチモーダル物理推論ベンチマークであるPhysicalArenaを導入する。 PhysicsArenaは、MLLMのマルチモーダル物理推論能力の評価と向上のための総合的なプラットフォームを提供することを目指している。

関連論文リスト

PhysicsEval: Inference-Time Techniques to Improve the Reasoning Proficiency of Large Language Models on Physics Problems [3.0901186959880977]
物理問題におけるフロンティアLLMの性能を数学的・記述的に評価する。各種物理教科書から得られた19,609個の問題から成り立つ物理問題評価ベンチマークである$rm P Small HYSICSEsmall VAL$を導入する。
論文参考訳（メタデータ） (2025-07-31T18:12:51Z)
Towards a Large Physics Benchmark [1.882115594816394]
本稿では,基礎物理学における大規模言語モデル開発の評価,監視,評価を行うためのベンチマークフレームワークを提案する。我々は,各質問が専門家によって正当性,難易度,驚きによってスコア付けされるスコアシステムを開発する。現在のデータセットには、高エネルギー物理イベントを分類する機械学習チャレンジなど、さまざまな例が含まれています。
論文参考訳（メタデータ） (2025-07-29T11:19:00Z)
ABench-Physics: Benchmarking Physical Reasoning in LLMs via High-Difficulty and Dynamic Physics Problems [21.278539804482012]
大規模言語モデル(LLM)は、数学やプログラミングのような領域で顕著なパフォーマンスを示している。物理学は、正確な計算だけでなく、深い概念的理解と物理モデリングスキルも要求する固有の課題を提起する。既存のベンチマークは、制限された難易度、複数選択フォーマット、静的評価設定のために、しばしば不足する。
論文参考訳（メタデータ） (2025-07-07T08:43:56Z)
PhysUniBench: An Undergraduate-Level Physics Reasoning Benchmark for Multimodal Models [69.73115077227969]
大規模言語モデル(MLLM)の推論能力の評価と改善を目的とした大規模ベンチマークであるPhysUniBenchを提案する。 PhysUniBenchは、3,304の物理問題から成っている。ベンチマークの構成には、複数のロールアウト、専門家レベルの評価、解決が容易な問題の自動フィルタリング、そして5段階の難易度グレーディングシステムを含む、厳格な多段階プロセスが含まれていた。
論文参考訳（メタデータ） (2025-06-21T09:55:42Z)
Can Theoretical Physics Research Benefit from Language Agents? [50.57057488167844]
大規模言語モデル(LLM)は、様々な領域にわたって急速に進歩しているが、理論物理学研究への応用はまだ成熟していない。このポジションペーパーは、LLMエージェントが、ドメイン知識やツールボックスと適切に統合された場合、理論的、計算的、応用物理学を加速するのに役立つと主張している。マルチモーダルデータを処理し、検証可能な仮説を提案し、設計実験を行う物理特殊化LSMを構想する。
論文参考訳（メタデータ） (2025-06-06T16:20:06Z)
SeePhys: Does Seeing Help Thinking? -- Benchmarking Vision-Based Physics Reasoning [89.48883747910448]
物理問題に基づく推論のための大規模マルチモーダルベンチマークである SeePhys を提示する。このベンチマークは、物理学の分野にまたがる7つの基本的な領域をカバーし、21のカテゴリの非常に異質なダイアグラムを取り入れている。最も先進的な視覚推論モデル(例えばGemini-2.5-proやo4-mini)でさえ、ベンチマークで60%未満の精度を実現している。
論文参考訳（メタデータ） (2025-05-25T11:28:34Z)
Position: Multimodal Large Language Models Can Significantly Advance Scientific Reasoning [51.11965014462375]
MLLM(Multimodal Large Language Models)は、テキスト、画像、その他のモダリティを統合する。本稿では,MLLMが数学,物理,化学,生物学などの分野にまたがる科学的推論を著しく前進させることができることを論じる。
論文参考訳（メタデータ） (2025-02-05T04:05:27Z)
MAPS: Advancing Multi-Modal Reasoning in Expert-Level Physical Science [62.96434290874878]
現在のMLLM(Multi-Modal Large Language Models)は、一般的な視覚的推論タスクにおいて強力な機能を示している。我々は,MLLMに基づく物理知覚とシミュレーションによるマルチモーダル科学推論(MAPS)という新しいフレームワークを開発した。 MAPSは、専門家レベルのマルチモーダル推論タスクを物理的知覚モデル(PPM)を介して物理図理解に分解し、シミュレータを介して物理的知識で推論する。
論文参考訳（メタデータ） (2025-01-18T13:54:00Z)
Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark [73.27104042215207]
EMMAは,数学,物理,化学,コーディングにまたがる有機マルチモーダル推論を対象とするベンチマークである。 EMMAタスクは、各モードで独立に推論することで対処できない高度なクロスモーダル推論を要求する。 EMMA上での最先端MLLMの評価は、複雑なマルチモーダルおよびマルチステップ推論タスクの処理において、重大な制限を生じさせる。
論文参考訳（メタデータ） (2025-01-09T18:55:52Z)
Physics Reasoner: Knowledge-Augmented Reasoning for Solving Physics Problems with Large Language Models [41.88825441287559]
既存の大規模言語モデル(LLM)は、知識の不足や誤った知識アプリケーションのために頻繁に失敗する。 LLMを用いて物理問題を解くための知識強化フレームワークである物理推論器を提案する。物理学的な問題を考えると、物理学的推論は問題解析、公式検索、ガイド付き推論という3つの段階を通して解決する。経験的に、物理推論器は知識不足と不正確な応用の問題を緩和し、SciBenchの最先端性能を平均精度5.8%で達成した。
論文参考訳（メタデータ） (2024-12-18T12:33:50Z)
LLMPhy: Complex Physical Reasoning Using Large Language Models and World Models [35.01842161084472]
そこで我々は,TraySimという物理推論タスクとデータセットを提案する。私たちのタスクは、外部の影響を受けるトレイ上のいくつかのオブジェクトのダイナミクスを予測することです。 LLMの物理知識とプログラム合成能力を活用するゼロショットブラックボックス最適化フレームワークであるLLMPhyを提案する。この結果から,LLMと物理エンジンの組み合わせにより,最先端のゼロショット物理推論性能が得られることがわかった。
論文参考訳（メタデータ） (2024-11-12T18:56:58Z)
SimLM: Can Language Models Infer Parameters of Physical Systems? [56.38608628187024]
物理系におけるパラメータ推論におけるLarge Language Models (LLM) の性能について検討する。実験の結果,単純なシステムであっても,本課題には適していないことが示唆された。物理シミュレータを用いてLLMのコンテキストを拡大する探索の有望な方向を提案する。
論文参考訳（メタデータ） (2023-12-21T12:05:19Z)
Physics simulation capabilities of LLMs [0.0]
大規模言語モデル(LLM)は、学部レベルから大学院レベルの物理学教科書の問題を解くことができ、コーディングに精通している。本稿では、PhDレベルから研究レベルの計算物理問題に対するSOTA (State-of-the-art) LLMの評価を行う。
論文参考訳（メタデータ） (2023-12-04T18:06:41Z)
PlasticineLab: A Soft-Body Manipulation Benchmark with Differentiable Physics [89.81550748680245]
PasticineLabと呼ばれる新しい微分可能な物理ベンチマークを導入する。各タスクにおいて、エージェントはマニピュレータを使用して、プラスチックを所望の構成に変形させる。本稿では,既存の強化学習(RL)手法と勾配に基づく手法について評価する。
論文参考訳（メタデータ） (2021-04-07T17:59:23Z)
Scalable Differentiable Physics for Learning and Control [99.4302215142673]
微分物理学は、物理的対象や環境を含む問題を学習し、制御するための強力なアプローチである。我々は、多数のオブジェクトとその相互作用をサポートすることができる微分可能物理学のためのスケーラブルなフレームワークを開発する。
論文参考訳（メタデータ） (2020-07-04T19:07:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。