論文の概要: T2VPhysBench: A First-Principles Benchmark for Physical Consistency in Text-to-Video Generation
- arxiv url: http://arxiv.org/abs/2505.00337v1
- Date: Thu, 01 May 2025 06:34:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.246143
- Title: T2VPhysBench: A First-Principles Benchmark for Physical Consistency in Text-to-Video Generation
- Title(参考訳): T2VPhysBench:テキスト・ビデオ生成における物理一貫性の第一原理ベンチマーク
- Authors: Xuyang Guo, Jiayan Huo, Zhenmei Shi, Zhao Song, Jiahao Zhang, Jiale Zhao,
- Abstract要約: 生成モデルは、美的魅力と正確な指示に優れた高品質なビデオを生成する。
多くの出力は、剛体衝突、エネルギー保存、重力力学といった基本的な制約に反する。
既存の物理的評価ベンチマークは、単純化されたライフシナリオプロンプトに適用される、自動的なピクセルレベルのメトリクスに依存している。
textbfT2VPhysBenchは、最先端のテキスト・ビデオシステムが12の物理法則に従うかどうかを体系的に評価する第一原理ベンチマークである。
- 参考スコア(独自算出の注目度): 12.120541052871486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-video generative models have made significant strides in recent years, producing high-quality videos that excel in both aesthetic appeal and accurate instruction following, and have become central to digital art creation and user engagement online. Yet, despite these advancements, their ability to respect fundamental physical laws remains largely untested: many outputs still violate basic constraints such as rigid-body collisions, energy conservation, and gravitational dynamics, resulting in unrealistic or even misleading content. Existing physical-evaluation benchmarks typically rely on automatic, pixel-level metrics applied to simplistic, life-scenario prompts, and thus overlook both human judgment and first-principles physics. To fill this gap, we introduce \textbf{T2VPhysBench}, a first-principled benchmark that systematically evaluates whether state-of-the-art text-to-video systems, both open-source and commercial, obey twelve core physical laws including Newtonian mechanics, conservation principles, and phenomenological effects. Our benchmark employs a rigorous human evaluation protocol and includes three targeted studies: (1) an overall compliance assessment showing that all models score below 0.60 on average in each law category; (2) a prompt-hint ablation revealing that even detailed, law-specific hints fail to remedy physics violations; and (3) a counterfactual robustness test demonstrating that models often generate videos that explicitly break physical rules when so instructed. The results expose persistent limitations in current architectures and offer concrete insights for guiding future research toward truly physics-aware video generation.
- Abstract(参考訳): 近年、テキスト・ビデオ生成モデルは、美的魅力と正確な指示の両方に優れた高品質の動画を制作し、デジタルアート制作とユーザーエンゲージメントのオンライン化の中心となっている。
しかし、これらの進歩にもかかわらず、基本的な物理法則を尊重する能力はほとんど証明されていない: 多くの出力は、剛体衝突、エネルギー保存、重力力学といった基本的な制約に反し、非現実的あるいは誤解を招く内容へと繋がる。
既存の物理的評価のベンチマークは、通常、単純化された、生命シナリオのプロンプトに適用される自動的なピクセルレベルのメトリクスに依存しており、したがって人間の判断と第一原理の物理学の両方を見落としている。
このギャップを埋めるために、我々は、オープンソースと商用の両方で最先端のテキスト・ビデオシステムがニュートン力学、保存原理、現象学的効果を含む12の物理法則に従うかどうかを体系的に評価する第一原理のベンチマークである「textbf{T2VPhysBench}」を紹介した。
本ベンチマークでは,厳密な人体評価プロトコルを用いて,(1)各法カテゴリーの平均0.60点以下となる全モデルに対する総合的コンプライアンス評価,(2)詳細な法則的ヒントであっても物理違反を補うことができないことを明らかにするプロンプト・ヒント・アブレーション,(3)モデルが指示された時に物理規則を明示的に破るビデオを生成することを実証する反ファクト的堅牢性テスト,の3つの研究を対象とする。
この結果は、現在のアーキテクチャにおける永続的な制限を明らかにし、真の物理を意識したビデオ生成に向けた将来の研究を導くための具体的な洞察を提供する。
関連論文リスト
- PhysicsMind: Sim and Real Mechanics Benchmarking for Physical Reasoning and Prediction in Foundational VLMs and World Models [40.16417939211015]
MLLM(Multimodal Large Language Models)やビデオワールドモデルは、数学的、常識的、視覚的推論において大きく進歩している。
この問題を計測しようとする既存のベンチマークは、合成された視覚的質問応答テンプレート、あるいは物理的な法則によってビデオがどれだけうまく機能するかを測定するための知覚的ビデオ品質に焦点を当てている。
我々は,3つの標準原理(Center of Mass, Lever Equilibrium, Newton's First Law)について,法に一貫性のある推論と生成を評価する統一ベンチマークであるPhysicalMindを紹介する。
論文 参考訳(メタデータ) (2026-01-22T14:33:01Z) - PhysRVG: Physics-Aware Unified Reinforcement Learning for Video Generative Models [100.65199317765608]
物理原理は現実的な視覚シミュレーションには基本的だが、トランスフォーマーベースのビデオ生成において重要な監視対象である。
本研究では,物理衝突ルールを高次元空間に直接適用した映像生成モデルのための物理認識強化学習パラダイムを提案する。
このパラダイムを、MDcycle(Mimicry-Discovery Cycle)と呼ばれる統合フレームワークに拡張することで、大幅な微調整を可能にします。
論文 参考訳(メタデータ) (2026-01-16T08:40:10Z) - ProPhy: Progressive Physical Alignment for Dynamic World Simulation [55.456455952212416]
ProPhyは、明示的な物理認識条件付けと異方性生成を可能にするプログレッシブ物理アライメントフレームワークである。
ProPhyは既存の最先端手法よりもリアルでダイナミックで物理的に一貫性のある結果が得られることを示す。
論文 参考訳(メタデータ) (2025-12-05T09:39:26Z) - MoReGen: Multi-Agent Motion-Reasoning Engine for Code-based Text-to-Video Synthesis [20.319439629468263]
ニュートンの運動制御によるテキスト・ビデオ生成と評価について検討し,身体的精度と動きのコヒーレンスを重視した。
我々は、コードドメイン内のテキストプロンプトから物理的に正確なビデオを生成するモーション対応物理グラウンドT2VフレームワークであるMoReGenを紹介する。
以上の結果から,MoReGenは物理コヒーレントな映像合成に向けての方向性を確立する一方,最先端のモデルは物理的妥当性を維持するのに苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-12-03T19:44:04Z) - PAI-Bench: A Comprehensive Benchmark For Physical AI [70.22914615084215]
ビデオ生成モデルは、物理的に一貫性のあるダイナミクスを維持するのに苦労することが多い。
マルチモーダルな大言語モデルは、予測と因果解釈において限られた性能を示す。
これらの観測は、現在のシステムは、物理AIの知覚的および予測的要求を扱う初期段階にあることを示唆している。
論文 参考訳(メタデータ) (2025-12-01T18:47:39Z) - PhysChoreo: Physics-Controllable Video Generation with Part-Aware Semantic Grounding [50.454084539837005]
PhysChoreoは、単一の画像から多様な制御性と物理的なリアリズムを持つビデオを生成する新しいフレームワークである。
本手法は2つの段階から構成される: まず, 画像中の全ての物体の静的初期特性を, 部分認識の物理的特性再構成により推定する。
そして、時間的に指示され、物理的に編集可能なシミュレーションを通じて、リッチな動的な振る舞いと物理的なリアリズムで高品質な動画を合成する。
論文 参考訳(メタデータ) (2025-11-25T17:59:04Z) - PhysCorr: Dual-Reward DPO for Physics-Constrained Text-to-Video Generation with Automated Preference Selection [10.498184571108995]
本稿では,ビデオ生成における物理一貫性をモデリング,評価,最適化するための統合フレームワークであるPhysCorrを提案する。
具体的には、物体内安定性と物体間相互作用の両方を定量化する最初の2次元報酬モデルである物理RMを紹介する。
我々のアプローチは、モデルに依存しないスケーラブルで、幅広いビデオ拡散とトランスフォーマーベースのバックボーンへのシームレスな統合を可能にする。
論文 参考訳(メタデータ) (2025-11-06T02:40:57Z) - Can Your Model Separate Yolks with a Water Bottle? Benchmarking Physical Commonsense Understanding in Video Generation Models [14.187604603759784]
本稿では,テキスト・ビデオ・システムの物理的推論能力を評価するためのベンチマークであるPhysVidBenchを紹介する。
各プロンプトに対して、さまざまな最先端モデルを用いてビデオを生成し、3段階評価パイプラインを採用する。
PhysVidBenchは、生成ビデオモデルにおける物理コモンセンスを評価するための構造化、解釈可能なフレームワークを提供する。
論文 参考訳(メタデータ) (2025-07-21T17:30:46Z) - "PhyWorldBench": A Comprehensive Evaluation of Physical Realism in Text-to-Video Models [38.14213802594432]
PhyWorldBenchは、物理法則に準拠したビデオ生成モデルを評価するために設計されたベンチマークである。
我々は、現実世界の物理学に故意に違反する「反物理学」という新しいカテゴリーを紹介した。
5つのオープンソースモデルと5つのプロプライエタリモデルを含む12の最先端のテキスト・ビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2025-07-17T17:54:09Z) - IntPhys 2: Benchmarking Intuitive Physics Understanding In Complex Synthetic Environments [26.02187269408895]
IntPhys 2は、ディープラーニングモデルの直感的な物理理解を評価するために設計されたビデオベンチマークである。
IntPhys 2は、永続性、不変性、時空間連続性、固さという、マクロ的なオブジェクトに関連する4つのコア原則に焦点を当てている。
論文 参考訳(メタデータ) (2025-06-11T15:21:16Z) - Reasoning Physical Video Generation with Diffusion Timestep Tokens via Reinforcement Learning [53.33388279933842]
本稿では,映像生成における物理的一貫性を実現するために,記号的推論と強化学習を統合することを提案する。
そこで我々は,Phys-ARフレームワークを提案する。第1段階は教師付き微調整を用いて記号的知識を伝達し,第2段階はモデルの推論能力の最適化に強化学習を適用する。
提案手法により,生成したビデオの物理的特性を動的に調整し,改善し,物理法則の遵守を確保することができる。
論文 参考訳(メタデータ) (2025-04-22T14:20:59Z) - Morpheus: Benchmarking Physical Reasoning of Video Generative Models with Real Physical Experiments [55.465371691714296]
物理推論に基づく映像生成モデル評価のためのベンチマークであるMorpheusを紹介する。
物理現象を捉えた80の現実世界のビデオが保存法によってガイドされている。
我々の研究結果によると、プロンプトやビデオコンディショニングが進んだとしても、現在のモデルは物理原理をエンコードするのに苦労している。
論文 参考訳(メタデータ) (2025-04-03T15:21:17Z) - VBench-2.0: Advancing Video Generation Benchmark Suite for Intrinsic Faithfulness [76.16523963623537]
本稿では,本質的な忠実度を示すビデオ生成モデルを評価するためのベンチマークであるVBench-2.0を紹介する。
VBench-2.0は、人間の忠実さ、コントロール可能性、創造性、物理学、コモンセンスの5つの重要な次元を評価している。
VBench-2.0は、表面的な忠実性から本質的な忠実性までを推し進めることで、次世代のビデオ生成モデルの新たな標準を確立することを目指している。
論文 参考訳(メタデータ) (2025-03-27T17:57:01Z) - WISA: World Simulator Assistant for Physics-Aware Text-to-Video Generation [43.71082938654985]
本稿では,物理原理をT2Vモデルに分解し,組み込むための有効なフレームワークであるWorld Simulator Assistant(WISA)を紹介する。
WISAは物理的原理をテキストの物理的記述、質的な物理的カテゴリ、量的物理的特性に分解する。
定性的な物理カテゴリに基づいて収集された新しいビデオデータセットWISA-32Kを提案する。
論文 参考訳(メタデータ) (2025-03-11T08:10:03Z) - VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation [66.58048825989239]
VideoPhy-2は、生成されたビデオの物理的常識を評価するアクション中心のデータセットである。
我々は、生成したビデオのセマンティック・アテンデンス、物理コモンセンス、および物理ルールのグラウンド化を評価する人間の評価を行う。
結果より,最高のモデルでも22%のジョイントパフォーマンスを達成できたことが示唆された。
論文 参考訳(メタデータ) (2025-03-09T22:49:12Z) - A Physical Coherence Benchmark for Evaluating Video Generation Models via Optical Flow-guided Frame Prediction [2.5262441079541285]
本稿では,生成されたビデオの物理コヒーレンスを評価するためのベンチマークPhyCoBenchを紹介する。
われわれのベンチマークでは、120のプロンプトが7つのカテゴリの物理原理をカバーし、ビデオコンテンツで観察できる重要な物理法則を捉えている。
本稿では,光学フローと映像フレームをカスケード的に生成する拡散モデルであるPhyCoPredictorを提案する。
論文 参考訳(メタデータ) (2025-02-08T09:31:26Z) - Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation [51.750634349748736]
テキスト・ツー・ビデオ(T2V)モデルは複雑なプロンプトの可視化に大きく貢献している。
しかし、直感的な物理を正確に表現するこれらのモデルの能力はほとんど解明されていない。
本稿では,T2V生成における物理コモンセンスの正しさを評価するためにPhyGenBenchを導入する。
論文 参考訳(メタデータ) (2024-10-07T17:56:04Z) - Generating Physical Dynamics under Priors [10.387111566480886]
拡散に基づく生成モデルに物理先入観をシームレスに組み込む新しい枠組みを導入する。
我々の貢献は、生成モデリングの分野ではかなり進歩しており、正確で物理的に一貫したダイナミクスを生成する堅牢なソリューションを提供しています。
論文 参考訳(メタデータ) (2024-09-01T14:43:47Z) - PhyBench: A Physical Commonsense Benchmark for Evaluating Text-to-Image Models [50.33699462106502]
テキスト・トゥ・イメージ(T2I)モデルは、物理コモンセンスと整合した画像を生成するのにしばしば失敗する。
現在のT2I評価ベンチマークは、精度、バイアス、安全性などの指標に焦点を当て、モデルの内部知識の評価を無視している。
メカニクス,光学,熱力学,材料特性の4つのカテゴリに700のプロンプトを含む総合的なT2I評価データセットであるPhyBenchを紹介する。
論文 参考訳(メタデータ) (2024-06-17T17:49:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。