論文の概要: Benchmarking Scientific Understanding and Reasoning for Video Generation using VideoScience-Bench
- arxiv url: http://arxiv.org/abs/2512.02942v1
- Date: Tue, 02 Dec 2025 17:11:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.977873
- Title: Benchmarking Scientific Understanding and Reasoning for Video Generation using VideoScience-Bench
- Title(参考訳): VideoScience-Benchを用いた映像生成のための科学的理解と推論のベンチマーク
- Authors: Lanxiang Hu, Abhilash Shankarampeta, Yixin Huang, Zilin Dai, Haoyang Yu, Yujie Zhao, Haoqiang Kang, Daniel Zhao, Tajana Rosing, Hao Zhang,
- Abstract要約: VideoScience-Benchは、ビデオモデルにおける学部レベルの科学的理解を評価するために設計されたベンチマークである。
ベンチマークには、14のトピックと103の物理と化学の概念にまたがる200の厳格なプロンプトが含まれている。
我々は,T2VおよびI2V設定の7つの最先端ビデオモデルに対して,5次元に沿って専門家によるアノテート評価を行う。
- 参考スコア(独自算出の注目度): 19.261278000675773
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The next frontier for video generation lies in developing models capable of zero-shot reasoning, where understanding real-world scientific laws is crucial for accurate physical outcome modeling under diverse conditions. However, existing video benchmarks are physical commonsense-based, offering limited insight into video models' scientific reasoning capability. We introduce VideoScience-Bench, a benchmark designed to evaluate undergraduate-level scientific understanding in video models. Each prompt encodes a composite scientific scenario that requires understanding and reasoning across multiple scientific concepts to generate the correct phenomenon. The benchmark comprises 200 carefully curated prompts spanning 14 topics and 103 concepts in physics and chemistry. We conduct expert-annotated evaluations across seven state-of-the-art video models in T2V and I2V settings along five dimensions: Prompt Consistency, Phenomenon Congruency, Correct Dynamism, Immutability, and Spatio-Temporal Continuity. Using a VLM-as-a-Judge to assess video generations, we observe strong correlation with human assessments. To the best of our knowledge, VideoScience-Bench is the first benchmark to evaluate video models not only as generators but also as reasoners, requiring their generations to demonstrate scientific understanding consistent with expected physical and chemical phenomena. Our data and evaluation code are available at: \href{https://github.com/hao-ai-lab/VideoScience}{github.com/hao-ai-lab/VideoScience}.
- Abstract(参考訳): ビデオ生成の次のフロンティアは、ゼロショット推論が可能なモデルを開発することである。
しかし、既存のビデオベンチマークは物理コモンセンスベースであり、ビデオモデルの科学的推論能力について限定的な洞察を提供する。
本稿では,ビデオモデルにおける学部レベルの科学的理解を評価するためのベンチマークであるVideoScience-Benchを紹介する。
それぞれのプロンプトは、正しい現象を生成するために複数の科学的概念の理解と推論を必要とする複合的な科学的シナリオを符号化する。
ベンチマークには、14のトピックと103の物理と化学の概念にまたがる200の厳格なプロンプトが含まれている。
我々は,T2VおよびI2V設定における7つの最先端ビデオモデルに対して,プロンプト整合性,フェノメノン整合性,補正ダイナミズム,不変性,時空間連続性(spatio-Temporal Continuity)という,専門家による評価を行った。
VLM-as-a-Judgeを用いて映像の世代評価を行い,人間の評価と強い相関関係を観察した。
私たちの知る限りでは、VideoScience-Benchは、ビデオモデルをジェネレータとしてだけでなく、推論者としても評価する最初のベンチマークです。
我々のデータと評価コードは以下の通りである。 \href{https://github.com/hao-ai-lab/VideoScience}{github.com/hao-ai-lab/VideoScience}。
関連論文リスト
- VideoHallu: Evaluating and Mitigating Multi-modal Hallucinations on Synthetic Video Understanding [70.00000053847738]
物理的な世界と対話するAIシステムには、真の視覚的理解が不可欠である。
現在の評価では、主にトレーニングデータと同様の実際のビデオを使用する。
物理的に不可能または論理的に矛盾する事象を描写するビデオを用いた負制御テストを提案する。
論文 参考訳(メタデータ) (2025-05-02T15:58:38Z) - Morpheus: Benchmarking Physical Reasoning of Video Generative Models with Real Physical Experiments [55.56181322973467]
物理推論に基づく映像生成モデル評価のためのベンチマークであるMorpheusを紹介する。
物理現象を捉えた80の現実世界のビデオが保存法によってガイドされている。
我々の研究結果によると、プロンプトやビデオコンディショニングが進んだとしても、現在のモデルは物理原理をエンコードするのに苦労している。
論文 参考訳(メタデータ) (2025-04-03T15:21:17Z) - VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation [66.58048825989239]
VideoPhy-2は、生成されたビデオの物理的常識を評価するアクション中心のデータセットである。
我々は、生成したビデオのセマンティック・アテンデンス、物理コモンセンス、および物理ルールのグラウンド化を評価する人間の評価を行う。
結果より,最高のモデルでも22%のジョイントパフォーマンスを達成できたことが示唆された。
論文 参考訳(メタデータ) (2025-03-09T22:49:12Z) - Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation [51.750634349748736]
テキスト・ツー・ビデオ(T2V)モデルは複雑なプロンプトの可視化に大きく貢献している。
しかし、直感的な物理を正確に表現するこれらのモデルの能力はほとんど解明されていない。
本稿では,T2V生成における物理コモンセンスの正しさを評価するためにPhyGenBenchを導入する。
論文 参考訳(メタデータ) (2024-10-07T17:56:04Z) - VideoPhy: Evaluating Physical Commonsense for Video Generation [93.28748850301949]
生成したビデオが現実世界のアクティビティの物理的常識に従うかどうかを評価するためのベンチマークであるVideoPhyを提示する。
そして、さまざまな最先端のテキスト・ビデオ生成モデルからキャプションに条件付けされたビデオを生成する。
人間の評価では、既存のモデルには、与えられたテキストプロンプトに付着したビデオを生成する能力が欠けていることが判明した。
論文 参考訳(メタデータ) (2024-06-05T17:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。