論文の概要: Do generative video models learn physical principles from watching videos?
- arxiv url: http://arxiv.org/abs/2501.09038v1
- Date: Tue, 14 Jan 2025 20:59:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:11:53.242307
- Title: Do generative video models learn physical principles from watching videos?
- Title(参考訳): 生成型ビデオモデルは、ビデオを見ることで物理的な原則を学ぶか?
- Authors: Saman Motamed, Laura Culp, Kevin Swersky, Priyank Jaini, Robert Geirhos,
- Abstract要約: AIビデオ生成は、品質とリアリズムが急速に進歩し、革命を遂げている。
ビデオモデルは物理の法則を発見する「世界モデル」を学習するのか、それとも、現実の物理原理を理解せずに視覚的リアリズムを達成するための高度なピクセル予測器なのか?
我々は,様々な物理原理の深い理解を得ることによってのみ解決できるベンチマークデータセットであるPhysical-IQを開発することで,この問題に対処する。
- 参考スコア(独自算出の注目度): 15.534227431706773
- License:
- Abstract: AI video generation is undergoing a revolution, with quality and realism advancing rapidly. These advances have led to a passionate scientific debate: Do video models learn ``world models'' that discover laws of physics -- or, alternatively, are they merely sophisticated pixel predictors that achieve visual realism without understanding the physical principles of reality? We address this question by developing Physics-IQ, a comprehensive benchmark dataset that can only be solved by acquiring a deep understanding of various physical principles, like fluid dynamics, optics, solid mechanics, magnetism and thermodynamics. We find that across a range of current models (Sora, Runway, Pika, Lumiere, Stable Video Diffusion, and VideoPoet), physical understanding is severely limited, and unrelated to visual realism. At the same time, some test cases can already be successfully solved. This indicates that acquiring certain physical principles from observation alone may be possible, but significant challenges remain. While we expect rapid advances ahead, our work demonstrates that visual realism does not imply physical understanding. Our project page is at https://physics-iq.github.io; code at https://github.com/google-deepmind/physics-IQ-benchmark.
- Abstract(参考訳): AIビデオ生成は、品質とリアリズムが急速に進歩し、革命を遂げている。
これらの進歩は、情熱的な科学的議論につながった: ビデオモデルは物理の法則を発見する ' 'world model''' を学習するか、それとも、現実の物理原理を理解せずに視覚的リアリズムを達成する、単なる高度なピクセル予測器なのか?
この問題は、流体力学、光学、固体力学、磁性、熱力学など、様々な物理原理の深い理解を得ることによってのみ解決できる包括的なベンチマークデータセットであるPhysical-IQを開発することで解決される。
私たちは、現在のモデル(Sora、Runway、Pika、Lumiere、Stable Video Diffusion、VideoPoet)において、物理的な理解は極めて限定的であり、ビジュアルリアリズムとは無関係であることに気付きました。
同時に、いくつかのテストケースはすでにうまく解決できます。
これは、観測のみから特定の物理原理を取得することは可能であるが、重大な課題が残っていることを示している。
先進的な進歩を期待する一方で、我々の研究は視覚的リアリズムが物理的な理解を示唆しないことを示した。
プロジェクトページはhttps://physics-iq.github.io; code at https://github.com/google-deepmind/physics-IQ-benchmark。
関連論文リスト
- Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation [51.750634349748736]
テキスト・ツー・ビデオ(T2V)モデルは複雑なプロンプトの可視化に大きく貢献している。
しかし、直感的な物理を正確に表現するこれらのモデルの能力はほとんど解明されていない。
本稿では,T2V生成における物理コモンセンスの正しさを評価するためにPhyGenBenchを導入する。
論文 参考訳(メタデータ) (2024-10-07T17:56:04Z) - PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation [29.831214435147583]
本稿では,新しい画像対ビデオ生成法であるPhysGenを提案する。
リアルで、物理的にもっともらしく、時間的に一貫したビデオを生み出す。
我々の重要な洞察は、モデルに基づく物理シミュレーションとデータ駆動のビデオ生成プロセスを統合することである。
論文 参考訳(メタデータ) (2024-09-27T17:59:57Z) - Latent Intuitive Physics: Learning to Transfer Hidden Physics from A 3D Video [58.043569985784806]
本稿では,物理シミュレーションのための伝達学習フレームワークである潜在直観物理学を紹介する。
単一の3Dビデオから流体の隠れた性質を推測し、新しいシーンで観察された流体をシミュレートすることができる。
我々は,本モデルの有効性を3つの方法で検証する: (i) 学習されたビジュアルワールド物理を用いた新しいシーンシミュレーション, (ii) 観測された流体力学の将来予測, (iii) 教師付き粒子シミュレーション。
論文 参考訳(メタデータ) (2024-06-18T16:37:44Z) - VideoPhy: Evaluating Physical Commonsense for Video Generation [93.28748850301949]
生成したビデオが現実世界のアクティビティの物理的常識に従うかどうかを評価するためのベンチマークであるVideoPhyを提示する。
そして、さまざまな最先端のテキスト・ビデオ生成モデルからキャプションに条件付けされたビデオを生成する。
人間の評価では、既存のモデルには、与えられたテキストプロンプトに付着したビデオを生成する能力が欠けていることが判明した。
論文 参考訳(メタデータ) (2024-06-05T17:53:55Z) - DreamPhysics: Learning Physics-Based 3D Dynamics with Video Diffusion Priors [75.83647027123119]
本稿では,映像拡散前の物体の物理的特性を学習することを提案する。
次に,物理に基づくMaterial-Point-Methodシミュレータを用いて,現実的な動きを伴う4Dコンテンツを生成する。
論文 参考訳(メタデータ) (2024-06-03T16:05:25Z) - Physics-informed Reinforcement Learning for Perception and Reasoning
about Fluids [0.0]
本研究では,流体知覚と観測からの推論のための物理インフォームド強化学習戦略を提案する。
本研究では,コモディティカメラで自由表面を観察した未確認液体の追跡(知覚)と解析(推論)を行う手法を開発した。
論文 参考訳(メタデータ) (2022-03-11T07:01:23Z) - Dynamic Visual Reasoning by Learning Differentiable Physics Models from
Video and Language [92.7638697243969]
視覚概念を協調的に学習し,映像や言語から物体の物理モデルを推定する統合フレームワークを提案する。
これは視覚認識モジュール、概念学習モジュール、微分可能な物理エンジンの3つのコンポーネントをシームレスに統合することで実現される。
論文 参考訳(メタデータ) (2021-10-28T17:59:13Z) - Learning to Identify Physical Parameters from Video Using Differentiable
Physics [2.15242029196761]
本稿では,アクション条件付きビデオ表現ネットワーク内の物理エンジンを用いて物理潜在表現を学習する手法を提案する。
われわれのネットワークは、画像のエンコードと、ビデオやアクションシーケンスからの質量や摩擦などの物理的特性の同定を学習できることを実証する。
論文 参考訳(メタデータ) (2020-09-17T13:36:57Z) - Occlusion resistant learning of intuitive physics from videos [52.25308231683798]
人工システムの鍵となる能力は、オブジェクト間の物理的相互作用を理解し、状況の将来的な結果を予測することである。
この能力は直感的な物理学と呼ばれ、近年注目されており、ビデオシーケンスからこれらの物理規則を学ぶためのいくつかの方法が提案されている。
論文 参考訳(メタデータ) (2020-04-30T19:35:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。