論文の概要: Owl-1: Omni World Model for Consistent Long Video Generation
- arxiv url: http://arxiv.org/abs/2412.09600v1
- Date: Thu, 12 Dec 2024 18:59:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:34:39.998004
- Title: Owl-1: Omni World Model for Consistent Long Video Generation
- Title(参考訳): Owl-1:Omni World Model for Consistent Long Video Generation
- Authors: Yuanhui Huang, Wenzhao Zheng, Yuan Gao, Xin Tao, Pengfei Wan, Di Zhang, Jie Zhou, Jiwen Lu,
- Abstract要約: Omni World ModeL (Owl-1) を提案する。
Owl-1 は VBench-I2V と VBench-Long の SOTA メソッドと同等の性能を実現している。
- 参考スコア(独自算出の注目度): 75.51378346789626
- License:
- Abstract: Video generation models (VGMs) have received extensive attention recently and serve as promising candidates for general-purpose large vision models. While they can only generate short videos each time, existing methods achieve long video generation by iteratively calling the VGMs, using the last-frame output as the condition for the next-round generation. However, the last frame only contains short-term fine-grained information about the scene, resulting in inconsistency in the long horizon. To address this, we propose an Omni World modeL (Owl-1) to produce long-term coherent and comprehensive conditions for consistent long video generation. As videos are observations of the underlying evolving world, we propose to model the long-term developments in a latent space and use VGMs to film them into videos. Specifically, we represent the world with a latent state variable which can be decoded into explicit video observations. These observations serve as a basis for anticipating temporal dynamics which in turn update the state variable. The interaction between evolving dynamics and persistent state enhances the diversity and consistency of the long videos. Extensive experiments show that Owl-1 achieves comparable performance with SOTA methods on VBench-I2V and VBench-Long, validating its ability to generate high-quality video observations. Code: https://github.com/huang-yh/Owl.
- Abstract(参考訳): ビデオ生成モデル(VGM)は近年広く注目されており、汎用大規模ビジョンモデルの候補として期待されている。
短いビデオは毎回しか生成できないが、既存の手法ではVGMを反復的に呼び出して、最終フレームの出力を次のラウンドの条件とする長大なビデオ生成を実現している。
しかし、最後のフレームはシーンに関する短期的なきめ細かい情報しか含まないため、長い地平線では矛盾が生じる。
そこで本研究では,Omni World ModeL (Owl-1) を提案する。
ビデオは進化の根底にある世界を観察するため、潜伏空間における長期的発展をモデル化し、VGMを用いて映像化することを提案する。
具体的には,世界に潜伏状態の変数を表現し,露骨なビデオ観察に復号化することができる。
これらの観測は、状態変数を更新する時間的ダイナミクスを予測する基盤となる。
進化するダイナミクスと永続状態の相互作用は、長いビデオの多様性と一貫性を高める。
大規模な実験により、Owl-1はVBench-I2VとVBench-LongのSOTA法と同等の性能を達成し、高品質なビデオ観察を可能にすることを示した。
コード:https://github.com/huang-yh/Owl.com
関連論文リスト
- ViD-GPT: Introducing GPT-style Autoregressive Generation in Video Diffusion Models [66.84478240757038]
ビデオ拡散モデル(VDM)の大多数は、自己回帰的な方法で長いビデオを生成する。
我々は、VDMに因果生成(すなわち一方向)を導入し、過去のフレームを将来のフレームを生成するプロンプトとして利用する。
我々のVD-GPTは、長大なビデオ生成において、定量的かつ質的に最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-16T15:37:22Z) - Encoding and Controlling Global Semantics for Long-form Video Question Answering [40.129800076300434]
我々は、ビデオのグローバルなセマンティクスを効率的に統合するために、状態空間層(SSL)をマルチモーダルトランスフォーマーに導入する。
私たちのSSLには、グローバルなセマンティクスから視覚表現へのフローを制御可能にするゲーティングユニットが含まれています。
長大なビデオQA能力を評価するため,Ego-QAとMAD-QAの2つの新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-05-30T06:10:10Z) - LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。
ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。
我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文 参考訳(メタデータ) (2024-04-04T11:33:29Z) - SEINE: Short-to-Long Video Diffusion Model for Generative Transition and
Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。
テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。
我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文 参考訳(メタデータ) (2023-10-31T17:58:17Z) - Generating Long Videos of Dynamic Scenes [66.56925105992472]
本稿では、物体の動きを再現する映像生成モデル、カメラ視点の変化、時間とともに現れる新しいコンテンツについて述べる。
よくある障害ケースは、コンテンツが時間的一貫性を提供する誘導バイアスに過度に依存するため、決して変化しないことです。
論文 参考訳(メタデータ) (2022-06-07T16:29:51Z) - Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive
Transformer [66.56167074658697]
本稿では3D-VQGANとトランスフォーマーを使って数千フレームのビデオを生成する手法を提案する。
評価の結果,16フレームのビデオクリップでトレーニングしたモデルでは,多種多様でコヒーレントで高品質な長編ビデオが生成できることがわかった。
また,テキストと音声に時間情報を組み込むことで,有意義な長ビデオを生成するための条件付き拡張についても紹介する。
論文 参考訳(メタデータ) (2022-04-07T17:59:02Z) - Clockwork Variational Autoencoders [33.17951971728784]
我々は,潜伏列の階層を利用したビデオ予測モデルである clockwork vae (cw-vae) を紹介する。
4つの多様なビデオ予測データセット上で,階層的遅延と時間的抽象化の両方の利点を実証する。
長期映像予測のためのMinecraftベンチマークを提案する。
論文 参考訳(メタデータ) (2021-02-18T18:23:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。