論文の概要: How Far is Video Generation from World Model: A Physical Law Perspective
- arxiv url: http://arxiv.org/abs/2411.02385v1
- Date: Mon, 04 Nov 2024 18:53:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:43:06.029870
- Title: How Far is Video Generation from World Model: A Physical Law Perspective
- Title(参考訳): 世界モデルからのビデオ生成:物理法の観点から
- Authors: Bingyi Kang, Yang Yue, Rui Lu, Zhijie Lin, Yang Zhao, Kaixin Wang, Gao Huang, Jiashi Feng,
- Abstract要約: OpenAIのSoraは、物理法則に準拠した世界モデルを開発するためのビデオ生成の可能性を強調している。
しかし、ビデオ生成モデルが人間の先行しない視覚データから純粋にそのような法則を発見する能力に疑問を投げかけることができる。
本研究は,3つの主要なシナリオ – 分布内,分布外,一般化 – について評価する。
- 参考スコア(独自算出の注目度): 101.24278831609249
- License:
- Abstract: OpenAI's Sora highlights the potential of video generation for developing world models that adhere to fundamental physical laws. However, the ability of video generation models to discover such laws purely from visual data without human priors can be questioned. A world model learning the true law should give predictions robust to nuances and correctly extrapolate on unseen scenarios. In this work, we evaluate across three key scenarios: in-distribution, out-of-distribution, and combinatorial generalization. We developed a 2D simulation testbed for object movement and collisions to generate videos deterministically governed by one or more classical mechanics laws. This provides an unlimited supply of data for large-scale experimentation and enables quantitative evaluation of whether the generated videos adhere to physical laws. We trained diffusion-based video generation models to predict object movements based on initial frames. Our scaling experiments show perfect generalization within the distribution, measurable scaling behavior for combinatorial generalization, but failure in out-of-distribution scenarios. Further experiments reveal two key insights about the generalization mechanisms of these models: (1) the models fail to abstract general physical rules and instead exhibit "case-based" generalization behavior, i.e., mimicking the closest training example; (2) when generalizing to new cases, models are observed to prioritize different factors when referencing training data: color > size > velocity > shape. Our study suggests that scaling alone is insufficient for video generation models to uncover fundamental physical laws, despite its role in Sora's broader success. See our project page at https://phyworld.github.io
- Abstract(参考訳): OpenAIのSoraは、基本的な物理法則に従う世界モデルを開発するためのビデオ生成の可能性を強調している。
しかし,ビデオ生成モデルが人間の先行しない視覚データから純粋にそのような法則を発見する能力に疑問を投げかけることができる。
真の法則を学ぶ世界モデルは、ニュアンスに堅牢な予測を与え、目に見えないシナリオを正しく外挿するべきである。
本研究は,3つの主要なシナリオ – 分布内,分布外,組合せ一般化 – について評価する。
1つ以上の古典力学法則によって決定的に支配されるビデオを生成するために,物体の動きと衝突の2次元シミュレーションベッドを開発した。
これにより、大規模な実験のためにデータを無制限に供給し、生成したビデオが物理法則に従うかどうかを定量的に評価することができる。
拡散に基づく映像生成モデルを訓練し,初期フレームに基づく物体の動きの予測を行った。
我々のスケーリング実験は, 分布内における完全一般化, 組合せ一般化のための測定可能なスケーリング挙動を示すが, アウト・オブ・ディストリビューションのシナリオでは失敗する。
モデルが一般的な物理規則を抽象化せず、代わりに「ケースベース」な一般化行動を示すこと、すなわち、最も近い訓練例を模倣すること、(2)新しい事例に一般化する場合、モデルはトレーニングデータを参照する際に異なる因子を優先順位付けする:色 > サイズ > 速度 > 形状。
我々の研究は、Soraの広範な成功にもかかわらず、ビデオ生成モデルが基本的な物理法則を明らかにするには、スケーリングだけでは不十分であることを示唆している。
プロジェクトのページはhttps://phyworld.github.ioにある。
関連論文リスト
- Interpretable Representation Learning from Videos using Nonlinear Priors [15.779730667509915]
本稿では,ビデオの非線形先行を指定可能なディープラーニングフレームワークを提案する。
我々は、単純な等方的ガウスから任意の非線形時間付加雑音モデル(ANM)に先立って変分オートエンコーダ(VAE)を拡張することでこれを実現している。
本手法は, 振り子, スプリング上の質量, 落下物, パルサーなどの実世界の物理映像で検証した。
論文 参考訳(メタデータ) (2024-10-24T08:39:24Z) - Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation [51.750634349748736]
テキスト・ツー・ビデオ(T2V)モデルは複雑なプロンプトの可視化に大きく貢献している。
しかし、直感的な物理を正確に表現するこれらのモデルの能力はほとんど解明されていない。
本稿では,T2V生成における物理コモンセンスの正しさを評価するためにPhyGenBenchを導入する。
論文 参考訳(メタデータ) (2024-10-07T17:56:04Z) - AVID: Adapting Video Diffusion Models to World Models [10.757223474031248]
我々は,事前学習されたモデルのパラメータにアクセスすることなく,事前学習された映像拡散モデルを行動条件付き世界モデルに適用することを提案する。
AVIDは学習マスクを使用して、事前訓練されたモデルの中間出力を変更し、正確なアクション条件のビデオを生成する。
AVIDをゲームや実世界のロボットデータ上で評価し,既存の拡散モデル適応法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-01T13:48:31Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - VideoPhy: Evaluating Physical Commonsense for Video Generation [93.28748850301949]
生成したビデオが現実世界のアクティビティの物理的常識に従うかどうかを評価するためのベンチマークであるVideoPhyを提示する。
そして、さまざまな最先端のテキスト・ビデオ生成モデルからキャプションに条件付けされたビデオを生成する。
人間の評価では、既存のモデルには、与えられたテキストプロンプトに付着したビデオを生成する能力が欠けていることが判明した。
論文 参考訳(メタデータ) (2024-06-05T17:53:55Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - A Tale of Tails: Model Collapse as a Change of Scaling Laws [11.6055501181235]
私たちは、合成データがトレーニングコーパスに導入される必然的な体制において、スケーリング法はどのように変化するのか?
スケーリング法則のレンズによるモデル崩壊の理論的枠組みを開発する。
我々は、広範囲の崩壊現象を発見し、スケーリングの損失を分析し、世代ごとにスケールをシフトさせ、スキルの「アンラーニング」を行い、人間と合成データを混在させながらグルーキングを行う。
論文 参考訳(メタデータ) (2024-02-10T21:06:34Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z) - Towards an Interpretable Latent Space in Structured Models for Video
Prediction [30.080907495461876]
基礎となる物理力学が支配するビデオにおける将来のフレーム予測の課題に焦点をあてる。
我々は、オブジェクト中心のモデル、すなわち、オブジェクト表現を明示的に扱うモデルで作業し、潜在空間における損失を伝播する。
論文 参考訳(メタデータ) (2021-07-16T05:37:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。