論文の概要: PhysicsSolutionAgent: Towards Multimodal Explanations for Numerical Physics Problem Solving
- arxiv url: http://arxiv.org/abs/2601.13453v1
- Date: Mon, 19 Jan 2026 23:11:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.091949
- Title: PhysicsSolutionAgent: Towards Multimodal Explanations for Numerical Physics Problem Solving
- Title(参考訳): 物理解法:数値物理問題の解法におけるマルチモーダル説明に向けて
- Authors: Aditya Thole, Anmol Agrawal, Arnav Ramamoorthy, Dhruv Kumar,
- Abstract要約: 物理確率説明ビデオを生成する自律エージェントであるPhysorSolutionAgent(PSA)を紹介する。
数値および理論物理問題にまたがる32本の動画上でPSAを評価した。
GPT-5-miniを用いて、PSAは平均3.8/5のオートスコアで100%の動画補完率を達成する。
- 参考スコア(独自算出の注目度): 1.2802720336459552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Explaining numerical physics problems often requires more than text-based solutions; clear visual reasoning can substantially improve conceptual understanding. While large language models (LLMs) demonstrate strong performance on many physics questions in textual form, their ability to generate long, high-quality visual explanations remains insufficiently explored. In this work, we introduce PhysicsSolutionAgent (PSA), an autonomous agent that generates physics-problem explanation videos of up to six minutes using Manim animations. To evaluate the generated videos, we design an assessment pipeline that performs automated checks across 15 quantitative parameters and incorporates feedback from a vision-language model (VLM) to iteratively improve video quality. We evaluate PSA on 32 videos spanning numerical and theoretical physics problems. Our results reveal systematic differences in video quality depending on problem difficulty and whether the task is numerical or theoretical. Using GPT-5-mini, PSA achieves a 100% video-completion rate with an average automated score of 3.8/5. However, qualitative analysis and human inspection uncover both minor and major issues, including visual layout inconsistencies and errors in how visual content is interpreted during feedback. These findings expose key limitations in reliable Manim code generation and highlight broader challenges in multimodal reasoning and evaluation for visual explanations of numerical physics problems. Our work underscores the need for improved visual understanding, verification, and evaluation frameworks in future multimodal educational systems
- Abstract(参考訳): 数値物理学の問題を説明するには、しばしばテキストベースの解以上のものが必要であり、明確な視覚的推論は概念的理解を大幅に改善することができる。
大規模言語モデル(LLM)は、テキスト形式で多くの物理問題に対して強い性能を示すが、その長大で高品質な視覚的説明を生成する能力はいまだに不十分である。
本研究では,マニムアニメーションを用いて最大6分間の物理確率説明ビデオを生成する自律エージェントであるPhysicalSolutionAgent(PSA)を紹介する。
生成したビデオを評価するために,15の定量的パラメータの自動チェックを行い,視覚言語モデル(VLM)からのフィードバックを取り入れて映像品質を反復的に改善する評価パイプラインを設計する。
数値および理論物理問題にまたがる32本の動画上でPSAを評価した。
その結果,課題の難易度や課題が数値的か理論的かによって映像品質の体系的差異が明らかになった。
GPT-5-miniを用いて、PSAは平均3.8/5の自動化スコアで100%のビデオ補完率を達成する。
しかし、質的な分析と人間の検査は、視覚的レイアウトの不整合や、フィードバック中に視覚的コンテンツがどのように解釈されるかの誤りを含む、マイナーな問題と主要な問題の両方を明らかにする。
これらの知見は、信頼性のあるManimコード生成における重要な制限を明らかにし、数値物理学問題の視覚的説明のためのマルチモーダル推論および評価におけるより広範な課題を浮き彫りにする。
我々の研究は、将来のマルチモーダル教育システムにおける視覚的理解、検証、評価の枠組みの改善の必要性を浮き彫りにしている。
関連論文リスト
- PhyEduVideo: A Benchmark for Evaluating Text-to-Video Models for Physics Education [14.810845377459833]
このベンチマークは、視覚的なイラストを通してT2Vモデルが核物理学の概念をいかにうまく伝達できるかを評価するように設計されている。
本研究の目的は,T2Vモデルによる高品質でカリキュラムに整合した教育コンテンツ作成の実現可能性について,体系的に検討することである。
論文 参考訳(メタデータ) (2026-01-02T18:42:02Z) - PhysUniBench: An Undergraduate-Level Physics Reasoning Benchmark for Multimodal Models [69.73115077227969]
大規模言語モデル(MLLM)の推論能力の評価と改善を目的とした大規模ベンチマークであるPhysUniBenchを提案する。
PhysUniBenchは、3,304の物理問題から成っている。
ベンチマークの構成には、複数のロールアウト、専門家レベルの評価、解決が容易な問題の自動フィルタリング、そして5段階の難易度グレーディングシステムを含む、厳格な多段階プロセスが含まれていた。
論文 参考訳(メタデータ) (2025-06-21T09:55:42Z) - VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Videos [89.39873803375498]
VideoMathQAは、ビデオ上で時間的に拡張されたクロスモーダル推論を実行できるかどうかを評価するために設計されたベンチマークである。
ベンチマークは10種類の数学的領域にまたがっており、ビデオは10秒から1時間以上に及ぶ。
構造化された視覚的コンテンツを解釈し、指導的物語を理解し、視覚的、音声的、テキスト的モダリティにまたがる共同概念を理解するためのモデルが必要である。
論文 参考訳(メタデータ) (2025-06-05T17:59:58Z) - SeePhys: Does Seeing Help Thinking? -- Benchmarking Vision-Based Physics Reasoning [95.2886065291234]
物理問題に基づく推論のための大規模マルチモーダルベンチマークである SeePhys を提示する。
このベンチマークは、物理学の分野にまたがる7つの基本的な領域をカバーし、21のカテゴリの非常に異質なダイアグラムを取り入れている。
最も先進的な視覚推論モデル(例えばGemini-2.5-proやo4-mini)でさえ、ベンチマークで60%未満の精度を実現している。
論文 参考訳(メタデータ) (2025-05-25T11:28:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。