論文の概要: Do generative video models understand physical principles?
- arxiv url: http://arxiv.org/abs/2501.09038v3
- Date: Thu, 27 Feb 2025 15:10:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:55:10.666587
- Title: Do generative video models understand physical principles?
- Title(参考訳): 生成ビデオモデルは物理原理を理解するか?
- Authors: Saman Motamed, Laura Culp, Kevin Swersky, Priyank Jaini, Robert Geirhos,
- Abstract要約: AIビデオ生成は、品質とリアリズムが急速に進歩し、革命を遂げている。
ビデオモデルは、物理の法則を発見する「世界モデル」を学ぶのか、それとも、現実の物理原理を理解せずに視覚的リアリズムを達成するための高度なピクセル予測器なのか?
我々は,様々な物理原理の深い理解を得ることによってのみ解決できるベンチマークデータセットであるPhysical-IQを開発することで,この問題に対処する。
- 参考スコア(独自算出の注目度): 15.534227431706773
- License:
- Abstract: AI video generation is undergoing a revolution, with quality and realism advancing rapidly. These advances have led to a passionate scientific debate: Do video models learn "world models" that discover laws of physics -- or, alternatively, are they merely sophisticated pixel predictors that achieve visual realism without understanding the physical principles of reality? We address this question by developing Physics-IQ, a comprehensive benchmark dataset that can only be solved by acquiring a deep understanding of various physical principles, like fluid dynamics, optics, solid mechanics, magnetism and thermodynamics. We find that across a range of current models (Sora, Runway, Pika, Lumiere, Stable Video Diffusion, and VideoPoet), physical understanding is severely limited, and unrelated to visual realism. At the same time, some test cases can already be successfully solved. This indicates that acquiring certain physical principles from observation alone may be possible, but significant challenges remain. While we expect rapid advances ahead, our work demonstrates that visual realism does not imply physical understanding. Our project page is at https://physics-iq.github.io; code at https://github.com/google-deepmind/physics-IQ-benchmark.
- Abstract(参考訳): AIビデオ生成は、品質とリアリズムが急速に進歩し、革命を遂げている。
ビデオモデルは物理の法則を発見する「世界モデル」を学ぶのか、それとも、現実の物理原理を理解せずに視覚的リアリズムを達成するための高度なピクセル予測器なのか?
この問題は、流体力学、光学、固体力学、磁性、熱力学など、様々な物理原理の深い理解を得ることによってのみ解決できる包括的なベンチマークデータセットであるPhysical-IQを開発することで解決される。
私たちは、現在のモデル(Sora、Runway、Pika、Lumiere、Stable Video Diffusion、VideoPoet)において、物理的な理解は極めて限定的であり、ビジュアルリアリズムとは無関係であることに気付きました。
同時に、いくつかのテストケースはすでにうまく解決できます。
これは、観測のみから特定の物理原理を取得することは可能であるが、重大な課題が残っていることを示している。
先進的な進歩を期待する一方で、我々の研究は視覚的リアリズムが物理的な理解を示唆しないことを示した。
プロジェクトページはhttps://physics-iq.github.io; code at https://github.com/google-deepmind/physics-IQ-benchmark。
関連論文リスト
- Intuitive physics understanding emerges from self-supervised pretraining on natural videos [39.030105916720835]
自然映像におけるマスキング領域の予測を訓練したディープニューラルネットワークモデルにおける直感的な物理理解の出現について検討する。
学習された表現空間における結果を予測するために訓練された映像予測モデルは、様々な直感的な物理特性の理解を示す。
論文 参考訳(メタデータ) (2025-02-17T14:27:14Z) - Generative Physical AI in Vision: A Survey [25.867330158975932]
生成人工知能(AI)は、コンピュータビジョンの分野を急速に進歩させ、機械が前例のない高度なビジュアルデータを作成し、解釈できるようにする。
生成AIが進化して物理リアリズムと動的シミュレーションを統合するにつれ、その「世界シミュレータ」として機能する可能性が高まっている。
この調査は、コンピュータビジョンにおける物理学を意識した生成AIの出現する分野を体系的にレビューする。
論文 参考訳(メタデータ) (2025-01-19T03:19:47Z) - PhysGame: Uncovering Physical Commonsense Violations in Gameplay Videos [66.09921831504238]
ゲームプレイビデオにおける物理コモンセンス違反を評価するための先駆的ベンチマークとしてPhysGameを提案する。
以上の結果から,現在のオープンソースビデオLLMのパフォーマンスは,プロプライエタリビデオよりも大幅に遅れていることが明らかとなった。
このデータセットに基づいて,PhysVLMを物理知識強化ビデオLLMとして提案する。
論文 参考訳(メタデータ) (2024-12-02T18:47:25Z) - Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation [51.750634349748736]
テキスト・ツー・ビデオ(T2V)モデルは複雑なプロンプトの可視化に大きく貢献している。
しかし、直感的な物理を正確に表現するこれらのモデルの能力はほとんど解明されていない。
本稿では,T2V生成における物理コモンセンスの正しさを評価するためにPhyGenBenchを導入する。
論文 参考訳(メタデータ) (2024-10-07T17:56:04Z) - PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation [29.831214435147583]
本稿では,新しい画像対ビデオ生成法であるPhysGenを提案する。
リアルで、物理的にもっともらしく、時間的に一貫したビデオを生み出す。
我々の重要な洞察は、モデルに基づく物理シミュレーションとデータ駆動のビデオ生成プロセスを統合することである。
論文 参考訳(メタデータ) (2024-09-27T17:59:57Z) - Latent Intuitive Physics: Learning to Transfer Hidden Physics from A 3D Video [58.043569985784806]
本稿では,物理シミュレーションのための伝達学習フレームワークである潜在直観物理学を紹介する。
単一の3Dビデオから流体の隠れた性質を推測し、新しいシーンで観察された流体をシミュレートすることができる。
我々は,本モデルの有効性を3つの方法で検証する: (i) 学習されたビジュアルワールド物理を用いた新しいシーンシミュレーション, (ii) 観測された流体力学の将来予測, (iii) 教師付き粒子シミュレーション。
論文 参考訳(メタデータ) (2024-06-18T16:37:44Z) - VideoPhy: Evaluating Physical Commonsense for Video Generation [93.28748850301949]
生成したビデオが現実世界のアクティビティの物理的常識に従うかどうかを評価するためのベンチマークであるVideoPhyを提示する。
そして、さまざまな最先端のテキスト・ビデオ生成モデルからキャプションに条件付けされたビデオを生成する。
人間の評価では、既存のモデルには、与えられたテキストプロンプトに付着したビデオを生成する能力が欠けていることが判明した。
論文 参考訳(メタデータ) (2024-06-05T17:53:55Z) - Dynamic Visual Reasoning by Learning Differentiable Physics Models from
Video and Language [92.7638697243969]
視覚概念を協調的に学習し,映像や言語から物体の物理モデルを推定する統合フレームワークを提案する。
これは視覚認識モジュール、概念学習モジュール、微分可能な物理エンジンの3つのコンポーネントをシームレスに統合することで実現される。
論文 参考訳(メタデータ) (2021-10-28T17:59:13Z) - Occlusion resistant learning of intuitive physics from videos [52.25308231683798]
人工システムの鍵となる能力は、オブジェクト間の物理的相互作用を理解し、状況の将来的な結果を予測することである。
この能力は直感的な物理学と呼ばれ、近年注目されており、ビデオシーケンスからこれらの物理規則を学ぶためのいくつかの方法が提案されている。
論文 参考訳(メタデータ) (2020-04-30T19:35:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。