論文の概要: T2VPhysBench: A First-Principles Benchmark for Physical Consistency in Text-to-Video Generation
- arxiv url: http://arxiv.org/abs/2505.00337v1
- Date: Thu, 01 May 2025 06:34:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.246143
- Title: T2VPhysBench: A First-Principles Benchmark for Physical Consistency in Text-to-Video Generation
- Title(参考訳): T2VPhysBench:テキスト・ビデオ生成における物理一貫性の第一原理ベンチマーク
- Authors: Xuyang Guo, Jiayan Huo, Zhenmei Shi, Zhao Song, Jiahao Zhang, Jiale Zhao,
- Abstract要約: 生成モデルは、美的魅力と正確な指示に優れた高品質なビデオを生成する。
多くの出力は、剛体衝突、エネルギー保存、重力力学といった基本的な制約に反する。
既存の物理的評価ベンチマークは、単純化されたライフシナリオプロンプトに適用される、自動的なピクセルレベルのメトリクスに依存している。
textbfT2VPhysBenchは、最先端のテキスト・ビデオシステムが12の物理法則に従うかどうかを体系的に評価する第一原理ベンチマークである。
- 参考スコア(独自算出の注目度): 12.120541052871486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-video generative models have made significant strides in recent years, producing high-quality videos that excel in both aesthetic appeal and accurate instruction following, and have become central to digital art creation and user engagement online. Yet, despite these advancements, their ability to respect fundamental physical laws remains largely untested: many outputs still violate basic constraints such as rigid-body collisions, energy conservation, and gravitational dynamics, resulting in unrealistic or even misleading content. Existing physical-evaluation benchmarks typically rely on automatic, pixel-level metrics applied to simplistic, life-scenario prompts, and thus overlook both human judgment and first-principles physics. To fill this gap, we introduce \textbf{T2VPhysBench}, a first-principled benchmark that systematically evaluates whether state-of-the-art text-to-video systems, both open-source and commercial, obey twelve core physical laws including Newtonian mechanics, conservation principles, and phenomenological effects. Our benchmark employs a rigorous human evaluation protocol and includes three targeted studies: (1) an overall compliance assessment showing that all models score below 0.60 on average in each law category; (2) a prompt-hint ablation revealing that even detailed, law-specific hints fail to remedy physics violations; and (3) a counterfactual robustness test demonstrating that models often generate videos that explicitly break physical rules when so instructed. The results expose persistent limitations in current architectures and offer concrete insights for guiding future research toward truly physics-aware video generation.
- Abstract(参考訳): 近年、テキスト・ビデオ生成モデルは、美的魅力と正確な指示の両方に優れた高品質の動画を制作し、デジタルアート制作とユーザーエンゲージメントのオンライン化の中心となっている。
しかし、これらの進歩にもかかわらず、基本的な物理法則を尊重する能力はほとんど証明されていない: 多くの出力は、剛体衝突、エネルギー保存、重力力学といった基本的な制約に反し、非現実的あるいは誤解を招く内容へと繋がる。
既存の物理的評価のベンチマークは、通常、単純化された、生命シナリオのプロンプトに適用される自動的なピクセルレベルのメトリクスに依存しており、したがって人間の判断と第一原理の物理学の両方を見落としている。
このギャップを埋めるために、我々は、オープンソースと商用の両方で最先端のテキスト・ビデオシステムがニュートン力学、保存原理、現象学的効果を含む12の物理法則に従うかどうかを体系的に評価する第一原理のベンチマークである「textbf{T2VPhysBench}」を紹介した。
本ベンチマークでは,厳密な人体評価プロトコルを用いて,(1)各法カテゴリーの平均0.60点以下となる全モデルに対する総合的コンプライアンス評価,(2)詳細な法則的ヒントであっても物理違反を補うことができないことを明らかにするプロンプト・ヒント・アブレーション,(3)モデルが指示された時に物理規則を明示的に破るビデオを生成することを実証する反ファクト的堅牢性テスト,の3つの研究を対象とする。
この結果は、現在のアーキテクチャにおける永続的な制限を明らかにし、真の物理を意識したビデオ生成に向けた将来の研究を導くための具体的な洞察を提供する。
関連論文リスト
- Reasoning Physical Video Generation with Diffusion Timestep Tokens via Reinforcement Learning [53.33388279933842]
本稿では,映像生成における物理的一貫性を実現するために,記号的推論と強化学習を統合することを提案する。
そこで我々は,Phys-ARフレームワークを提案する。第1段階は教師付き微調整を用いて記号的知識を伝達し,第2段階はモデルの推論能力の最適化に強化学習を適用する。
提案手法により,生成したビデオの物理的特性を動的に調整し,改善し,物理法則の遵守を確保することができる。
論文 参考訳(メタデータ) (2025-04-22T14:20:59Z) - Morpheus: Benchmarking Physical Reasoning of Video Generative Models with Real Physical Experiments [55.465371691714296]
物理推論に基づく映像生成モデル評価のためのベンチマークであるMorpheusを紹介する。
物理現象を捉えた80の現実世界のビデオが保存法によってガイドされている。
我々の研究結果によると、プロンプトやビデオコンディショニングが進んだとしても、現在のモデルは物理原理をエンコードするのに苦労している。
論文 参考訳(メタデータ) (2025-04-03T15:21:17Z) - VBench-2.0: Advancing Video Generation Benchmark Suite for Intrinsic Faithfulness [76.16523963623537]
本稿では,本質的な忠実度を示すビデオ生成モデルを評価するためのベンチマークであるVBench-2.0を紹介する。
VBench-2.0は、人間の忠実さ、コントロール可能性、創造性、物理学、コモンセンスの5つの重要な次元を評価している。
VBench-2.0は、表面的な忠実性から本質的な忠実性までを推し進めることで、次世代のビデオ生成モデルの新たな標準を確立することを目指している。
論文 参考訳(メタデータ) (2025-03-27T17:57:01Z) - WISA: World Simulator Assistant for Physics-Aware Text-to-Video Generation [43.71082938654985]
本稿では,物理原理をT2Vモデルに分解し,組み込むための有効なフレームワークであるWorld Simulator Assistant(WISA)を紹介する。
WISAは物理的原理をテキストの物理的記述、質的な物理的カテゴリ、量的物理的特性に分解する。
定性的な物理カテゴリに基づいて収集された新しいビデオデータセットWISA-32Kを提案する。
論文 参考訳(メタデータ) (2025-03-11T08:10:03Z) - VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation [66.58048825989239]
VideoPhy-2は、生成されたビデオの物理的常識を評価するアクション中心のデータセットである。
我々は、生成したビデオのセマンティック・アテンデンス、物理コモンセンス、および物理ルールのグラウンド化を評価する人間の評価を行う。
結果より,最高のモデルでも22%のジョイントパフォーマンスを達成できたことが示唆された。
論文 参考訳(メタデータ) (2025-03-09T22:49:12Z) - A Physical Coherence Benchmark for Evaluating Video Generation Models via Optical Flow-guided Frame Prediction [2.5262441079541285]
本稿では,生成されたビデオの物理コヒーレンスを評価するためのベンチマークPhyCoBenchを紹介する。
われわれのベンチマークでは、120のプロンプトが7つのカテゴリの物理原理をカバーし、ビデオコンテンツで観察できる重要な物理法則を捉えている。
本稿では,光学フローと映像フレームをカスケード的に生成する拡散モデルであるPhyCoPredictorを提案する。
論文 参考訳(メタデータ) (2025-02-08T09:31:26Z) - Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation [51.750634349748736]
テキスト・ツー・ビデオ(T2V)モデルは複雑なプロンプトの可視化に大きく貢献している。
しかし、直感的な物理を正確に表現するこれらのモデルの能力はほとんど解明されていない。
本稿では,T2V生成における物理コモンセンスの正しさを評価するためにPhyGenBenchを導入する。
論文 参考訳(メタデータ) (2024-10-07T17:56:04Z) - Generating Physical Dynamics under Priors [10.387111566480886]
拡散に基づく生成モデルに物理先入観をシームレスに組み込む新しい枠組みを導入する。
我々の貢献は、生成モデリングの分野ではかなり進歩しており、正確で物理的に一貫したダイナミクスを生成する堅牢なソリューションを提供しています。
論文 参考訳(メタデータ) (2024-09-01T14:43:47Z) - PhyBench: A Physical Commonsense Benchmark for Evaluating Text-to-Image Models [50.33699462106502]
テキスト・トゥ・イメージ(T2I)モデルは、物理コモンセンスと整合した画像を生成するのにしばしば失敗する。
現在のT2I評価ベンチマークは、精度、バイアス、安全性などの指標に焦点を当て、モデルの内部知識の評価を無視している。
メカニクス,光学,熱力学,材料特性の4つのカテゴリに700のプロンプトを含む総合的なT2I評価データセットであるPhyBenchを紹介する。
論文 参考訳(メタデータ) (2024-06-17T17:49:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。