論文の概要: PhyEduVideo: A Benchmark for Evaluating Text-to-Video Models for Physics Education
- arxiv url: http://arxiv.org/abs/2601.00943v1
- Date: Fri, 02 Jan 2026 18:42:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:21.877572
- Title: PhyEduVideo: A Benchmark for Evaluating Text-to-Video Models for Physics Education
- Title(参考訳): PhyEduVideo:物理教育のためのテキスト・ビデオ・モデルの評価ベンチマーク
- Authors: Megha Mariam K. M, Aditya Arun, Zakaria Laskar, C. V. Jawahar,
- Abstract要約: このベンチマークは、視覚的なイラストを通してT2Vモデルが核物理学の概念をいかにうまく伝達できるかを評価するように設計されている。
本研究の目的は,T2Vモデルによる高品質でカリキュラムに整合した教育コンテンツ作成の実現可能性について,体系的に検討することである。
- 参考スコア(独自算出の注目度): 14.810845377459833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative AI models, particularly Text-to-Video (T2V) systems, offer a promising avenue for transforming science education by automating the creation of engaging and intuitive visual explanations. In this work, we take a first step toward evaluating their potential in physics education by introducing a dedicated benchmark for explanatory video generation. The benchmark is designed to assess how well T2V models can convey core physics concepts through visual illustrations. Each physics concept in our benchmark is decomposed into granular teaching points, with each point accompanied by a carefully crafted prompt intended for visual explanation of the teaching point. T2V models are evaluated on their ability to generate accurate videos in response to these prompts. Our aim is to systematically explore the feasibility of using T2V models to generate high-quality, curriculum-aligned educational content-paving the way toward scalable, accessible, and personalized learning experiences powered by AI. Our evaluation reveals that current models produce visually coherent videos with smooth motion and minimal flickering, yet their conceptual accuracy is less reliable. Performance in areas such as mechanics, fluids, and optics is encouraging, but models struggle with electromagnetism and thermodynamics, where abstract interactions are harder to depict. These findings underscore the gap between visual quality and conceptual correctness in educational video generation. We hope this benchmark helps the community close that gap and move toward T2V systems that can deliver accurate, curriculum-aligned physics content at scale. The benchmark and accompanying codebase are publicly available at https://github.com/meghamariamkm/PhyEduVideo.
- Abstract(参考訳): 生成AIモデル、特にText-to-Video(T2V)システムは、魅力的で直感的な視覚的説明の作成を自動化することで、科学教育を変革するための有望な道を提供する。
本研究では,説明ビデオ生成のための専用ベンチマークを導入することにより,物理教育におけるその可能性を評価するための第一歩を踏み出した。
このベンチマークは、視覚的なイラストを通してT2Vモデルが核物理学の概念をいかにうまく伝達できるかを評価するように設計されている。
本ベンチマークでは,各物理概念を微粒な点に分解し,各点に視覚的な説明を意図した注意深いプロンプトを付与する。
T2Vモデルは、これらのプロンプトに応じて正確なビデオを生成する能力に基づいて評価される。
我々の目的は、AIを活用したスケーラブルでアクセシブルでパーソナライズされた学習体験への道のりを、T2Vモデルを用いて、高品質でカリキュラムに準拠した教育コンテンツ作成の実現可能性について体系的に探求することである。
評価の結果、現在のモデルでは、スムーズな動きとフレッカリングが最小限に抑えられた視覚的コヒーレントなビデオが生成されているが、その概念的精度は低いことが判明した。
力学、流体、光学などの分野のパフォーマンスは奨励されているが、抽象的な相互作用を記述するのが困難である電磁力学や熱力学に苦しむモデルもある。
これらの結果は,教育用ビデオ生成における視覚的品質と概念的正しさのギャップを浮き彫りにした。
このベンチマークは、コミュニティがギャップを埋めて、正確なカリキュラムに準拠した物理コンテンツを大規模に提供できるT2Vシステムへの移行を支援することを願っている。
ベンチマークと付属コードベースはhttps://github.com/meghamariamkm/PhyEduVideoで公開されている。
関連論文リスト
- MoReGen: Multi-Agent Motion-Reasoning Engine for Code-based Text-to-Video Synthesis [20.319439629468263]
ニュートンの運動制御によるテキスト・ビデオ生成と評価について検討し,身体的精度と動きのコヒーレンスを重視した。
我々は、コードドメイン内のテキストプロンプトから物理的に正確なビデオを生成するモーション対応物理グラウンドT2VフレームワークであるMoReGenを紹介する。
以上の結果から,MoReGenは物理コヒーレントな映像合成に向けての方向性を確立する一方,最先端のモデルは物理的妥当性を維持するのに苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-12-03T19:44:04Z) - Bootstrapping Physics-Grounded Video Generation through VLM-Guided Iterative Self-Refinement [51.54051161067026]
本稿では,映像生成のための物理対応ガイダンスを提供するための反復的自己再構成フレームワークを提案する。
物理的不整合からのフィードバックに基づいてプロンプトを洗練させるマルチモーダル・チェーン・オブ・シント(MM-CoT)プロセスを導入する。
PhyIQベンチマーク実験の結果,物理IQのスコアは56.31から62.38に改善した。
論文 参考訳(メタデータ) (2025-11-25T13:09:03Z) - LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference [57.086932851733145]
ビデオ拡散モデルにおける直感的な物理を評価するトレーニング不要な方法であるLikePhysを紹介した。
現在のビデオ拡散モデルにおける直観的物理理解のベンチマークを行う。
経験的結果は、現在のモデルが複雑でカオス的な力学に苦しむにもかかわらず、モデルキャパシティと推論設定スケールとしての物理理解の改善傾向が明らかであることを示している。
論文 参考訳(メタデータ) (2025-10-13T15:19:07Z) - Can Your Model Separate Yolks with a Water Bottle? Benchmarking Physical Commonsense Understanding in Video Generation Models [14.187604603759784]
本稿では,テキスト・ビデオ・システムの物理的推論能力を評価するためのベンチマークであるPhysVidBenchを紹介する。
各プロンプトに対して、さまざまな最先端モデルを用いてビデオを生成し、3段階評価パイプラインを採用する。
PhysVidBenchは、生成ビデオモデルにおける物理コモンセンスを評価するための構造化、解釈可能なフレームワークを提供する。
論文 参考訳(メタデータ) (2025-07-21T17:30:46Z) - VideoREPA: Learning Physics for Video Generation through Relational Alignment with Foundation Models [53.204403109208506]
現在のテキスト・トゥ・ビデオ(T2V)モデルは、物理的にもっともらしいコンテンツを生成するのに苦労することが多い。
本稿では,基礎モデルから物理理解能力を抽出し,基礎モデルからT2Vモデルへ変換するビデオREPAを提案する。
論文 参考訳(メタデータ) (2025-05-29T17:06:44Z) - Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation [51.750634349748736]
テキスト・ツー・ビデオ(T2V)モデルは複雑なプロンプトの可視化に大きく貢献している。
しかし、直感的な物理を正確に表現するこれらのモデルの能力はほとんど解明されていない。
本稿では,T2V生成における物理コモンセンスの正しさを評価するためにPhyGenBenchを導入する。
論文 参考訳(メタデータ) (2024-10-07T17:56:04Z) - Evaluation of Text-to-Video Generation Models: A Dynamics Perspective [94.2662603491163]
既存の評価プロトコルは主に時間的一貫性とコンテンツの連続性に焦点を当てている。
本稿では,T2Vモデルを評価するための動的次元に着目した効果的な評価プロトコルDEVILを提案する。
論文 参考訳(メタデータ) (2024-07-01T08:51:22Z) - Dynamic Visual Reasoning by Learning Differentiable Physics Models from
Video and Language [92.7638697243969]
視覚概念を協調的に学習し,映像や言語から物体の物理モデルを推定する統合フレームワークを提案する。
これは視覚認識モジュール、概念学習モジュール、微分可能な物理エンジンの3つのコンポーネントをシームレスに統合することで実現される。
論文 参考訳(メタデータ) (2021-10-28T17:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。