論文の概要: Do generative video models understand physical principles?
- arxiv url: http://arxiv.org/abs/2501.09038v3
- Date: Thu, 27 Feb 2025 15:10:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 15:15:46.359433
- Title: Do generative video models understand physical principles?
- Title(参考訳): 生成ビデオモデルは物理原理を理解するか?
- Authors: Saman Motamed, Laura Culp, Kevin Swersky, Priyank Jaini, Robert Geirhos,
- Abstract要約: AIビデオ生成は、品質とリアリズムが急速に進歩し、革命を遂げている。
ビデオモデルは、物理の法則を発見する「世界モデル」を学ぶのか、それとも、現実の物理原理を理解せずに視覚的リアリズムを達成するための高度なピクセル予測器なのか?
我々は,様々な物理原理の深い理解を得ることによってのみ解決できるベンチマークデータセットであるPhysical-IQを開発することで,この問題に対処する。
- 参考スコア(独自算出の注目度): 15.534227431706773
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI video generation is undergoing a revolution, with quality and realism advancing rapidly. These advances have led to a passionate scientific debate: Do video models learn "world models" that discover laws of physics -- or, alternatively, are they merely sophisticated pixel predictors that achieve visual realism without understanding the physical principles of reality? We address this question by developing Physics-IQ, a comprehensive benchmark dataset that can only be solved by acquiring a deep understanding of various physical principles, like fluid dynamics, optics, solid mechanics, magnetism and thermodynamics. We find that across a range of current models (Sora, Runway, Pika, Lumiere, Stable Video Diffusion, and VideoPoet), physical understanding is severely limited, and unrelated to visual realism. At the same time, some test cases can already be successfully solved. This indicates that acquiring certain physical principles from observation alone may be possible, but significant challenges remain. While we expect rapid advances ahead, our work demonstrates that visual realism does not imply physical understanding. Our project page is at https://physics-iq.github.io; code at https://github.com/google-deepmind/physics-IQ-benchmark.
- Abstract(参考訳): AIビデオ生成は、品質とリアリズムが急速に進歩し、革命を遂げている。
ビデオモデルは物理の法則を発見する「世界モデル」を学ぶのか、それとも、現実の物理原理を理解せずに視覚的リアリズムを達成するための高度なピクセル予測器なのか?
この問題は、流体力学、光学、固体力学、磁性、熱力学など、様々な物理原理の深い理解を得ることによってのみ解決できる包括的なベンチマークデータセットであるPhysical-IQを開発することで解決される。
私たちは、現在のモデル(Sora、Runway、Pika、Lumiere、Stable Video Diffusion、VideoPoet)において、物理的な理解は極めて限定的であり、ビジュアルリアリズムとは無関係であることに気付きました。
同時に、いくつかのテストケースはすでにうまく解決できます。
これは、観測のみから特定の物理原理を取得することは可能であるが、重大な課題が残っていることを示している。
先進的な進歩を期待する一方で、我々の研究は視覚的リアリズムが物理的な理解を示唆しないことを示した。
プロジェクトページはhttps://physics-iq.github.io; code at https://github.com/google-deepmind/physics-IQ-benchmark。
関連論文リスト
- Morpheus: Benchmarking Physical Reasoning of Video Generative Models with Real Physical Experiments [55.465371691714296]
物理推論に基づく映像生成モデル評価のためのベンチマークであるMorpheusを紹介する。
物理現象を捉えた80の現実世界のビデオが保存法によってガイドされている。
我々の研究結果によると、プロンプトやビデオコンディショニングが進んだとしても、現在のモデルは物理原理をエンコードするのに苦労している。
論文 参考訳(メタデータ) (2025-04-03T15:21:17Z) - VLIPP: Towards Physically Plausible Video Generation with Vision and Language Informed Physical Prior [88.51778468222766]
近年,映像拡散モデル (VDM) が大幅に進歩し,映像のリアル化が進んでいる。
VDMは物理の理解の欠如のため、物理的にもっともらしいビデオを作ることができないことが多い。
本稿では,物理を視覚と言語に明示的に組み込んだ新しい2段階画像・映像生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-30T09:03:09Z) - Cosmos-Reason1: From Physical Common Sense To Embodied Reasoning [76.94237859217469]
物理的なAIシステムは、物理的な世界で複雑な行動を知覚し、理解し、実行する必要がある。
物理世界を理解するためのモデルを提案する。
私たちは、空間、時間、物理学に関する基本的な知識を捉える階層的オントロジーを使用します。
具体的推論では、異なる物理的実施形態をまたいで一般化する2次元オントロジーに依存している。
論文 参考訳(メタデータ) (2025-03-18T22:06:58Z) - WISA: World Simulator Assistant for Physics-Aware Text-to-Video Generation [43.71082938654985]
本稿では,物理原理をT2Vモデルに分解し,組み込むための有効なフレームワークであるWorld Simulator Assistant(WISA)を紹介する。
WISAは物理的原理をテキストの物理的記述、質的な物理的カテゴリ、量的物理的特性に分解する。
定性的な物理カテゴリに基づいて収集された新しいビデオデータセットWISA-32Kを提案する。
論文 参考訳(メタデータ) (2025-03-11T08:10:03Z) - Discover physical concepts and equations with machine learning [7.565272546753481]
本稿では,変分オートエンコーダ(VAE)とニューラル正規微分方程式(Neural ODE)を組み合わせたモデルを提案する。
これにより、シミュレーション実験データから物理概念を同時に発見し、方程式を定式化することが可能になる。
このモデルは、コペルニクスのヘリオ中心論、ニュートンの重力法則、シュル・オーディンガーの波動力学、パウリのスピン磁気定式化など、物理学の歴史から着想を得たいくつかの例に適用する。
論文 参考訳(メタデータ) (2024-12-11T15:30:21Z) - PhysGame: Uncovering Physical Commonsense Violations in Gameplay Videos [66.09921831504238]
ゲームプレイビデオにおける物理コモンセンス違反を評価するための先駆的ベンチマークとしてPhysGameを提案する。
以上の結果から,現在のオープンソースビデオLLMのパフォーマンスは,プロプライエタリビデオよりも大幅に遅れていることが明らかとなった。
このデータセットに基づいて,PhysVLMを物理知識強化ビデオLLMとして提案する。
論文 参考訳(メタデータ) (2024-12-02T18:47:25Z) - PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation [29.831214435147583]
本稿では,新しい画像対ビデオ生成法であるPhysGenを提案する。
リアルで、物理的にもっともらしく、時間的に一貫したビデオを生み出す。
我々の重要な洞察は、モデルに基づく物理シミュレーションとデータ駆動のビデオ生成プロセスを統合することである。
論文 参考訳(メタデータ) (2024-09-27T17:59:57Z) - Latent Intuitive Physics: Learning to Transfer Hidden Physics from A 3D Video [58.043569985784806]
本稿では,物理シミュレーションのための伝達学習フレームワークである潜在直観物理学を紹介する。
単一の3Dビデオから流体の隠れた性質を推測し、新しいシーンで観察された流体をシミュレートすることができる。
我々は,本モデルの有効性を3つの方法で検証する: (i) 学習されたビジュアルワールド物理を用いた新しいシーンシミュレーション, (ii) 観測された流体力学の将来予測, (iii) 教師付き粒子シミュレーション。
論文 参考訳(メタデータ) (2024-06-18T16:37:44Z) - VideoPhy: Evaluating Physical Commonsense for Video Generation [93.28748850301949]
生成したビデオが現実世界のアクティビティの物理的常識に従うかどうかを評価するためのベンチマークであるVideoPhyを提示する。
そして、さまざまな最先端のテキスト・ビデオ生成モデルからキャプションに条件付けされたビデオを生成する。
人間の評価では、既存のモデルには、与えられたテキストプロンプトに付着したビデオを生成する能力が欠けていることが判明した。
論文 参考訳(メタデータ) (2024-06-05T17:53:55Z) - DreamPhysics: Learning Physics-Based 3D Dynamics with Video Diffusion Priors [75.83647027123119]
本稿では,映像拡散前の物体の物理的特性を学習することを提案する。
次に,物理に基づくMaterial-Point-Methodシミュレータを用いて,現実的な動きを伴う4Dコンテンツを生成する。
論文 参考訳(メタデータ) (2024-06-03T16:05:25Z) - Dynamic Visual Reasoning by Learning Differentiable Physics Models from
Video and Language [92.7638697243969]
視覚概念を協調的に学習し,映像や言語から物体の物理モデルを推定する統合フレームワークを提案する。
これは視覚認識モジュール、概念学習モジュール、微分可能な物理エンジンの3つのコンポーネントをシームレスに統合することで実現される。
論文 参考訳(メタデータ) (2021-10-28T17:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。