論文の概要: MOSO: Decomposing MOtion, Scene and Object for Video Prediction
- arxiv url: http://arxiv.org/abs/2303.03684v1
- Date: Tue, 7 Mar 2023 06:54:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-08 16:18:35.487238
- Title: MOSO: Decomposing MOtion, Scene and Object for Video Prediction
- Title(参考訳): MOSO:ビデオ予測のためのモード、シーン、オブジェクトの分解
- Authors: Mingzhen Sun, Weining Wang, Xinxin Zhu and Jing Liu
- Abstract要約: 映像予測のための2段階のMotion, Scene, Object decomposition framework(MOSO)を提案する。
最初の段階では、MOSO-VQVAEは、前のビデオクリップをモーション、シーン、オブジェクトコンポーネントに分解する。
第2段階では、MOSO-Transformerは、以前のトークンに基づいて、その後のビデオクリップのオブジェクトとシーントークンを予測する。
- 参考スコア(独自算出の注目度): 16.580180543048705
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Motion, scene and object are three primary visual components of a video. In
particular, objects represent the foreground, scenes represent the background,
and motion traces their dynamics. Based on this insight, we propose a two-stage
MOtion, Scene and Object decomposition framework (MOSO) for video prediction,
consisting of MOSO-VQVAE and MOSO-Transformer. In the first stage, MOSO-VQVAE
decomposes a previous video clip into the motion, scene and object components,
and represents them as distinct groups of discrete tokens. Then, in the second
stage, MOSO-Transformer predicts the object and scene tokens of the subsequent
video clip based on the previous tokens and adds dynamic motion at the token
level to the generated object and scene tokens. Our framework can be easily
extended to unconditional video generation and video frame interpolation tasks.
Experimental results demonstrate that our method achieves new state-of-the-art
performance on five challenging benchmarks for video prediction and
unconditional video generation: BAIR, RoboNet, KTH, KITTI and UCF101. In
addition, MOSO can produce realistic videos by combining objects and scenes
from different videos.
- Abstract(参考訳): モーション、シーン、オブジェクトはビデオの3つの主要なビジュアルコンポーネントです。
特に、オブジェクトは前景を表し、シーンは背景を表し、モーションはそのダイナミクスを追跡します。
この知見に基づいて,MOSO-VQVAE と MOSO-Transformer からなる映像予測のための2段階のMotion, Scene, Object decomposition framework (MOSO) を提案する。
最初の段階では、MOSO-VQVAEは以前のビデオクリップをモーション、シーン、オブジェクトコンポーネントに分解し、個別のトークンのグループとして表現する。
そして、第2段階で、MOSO-Transformerは、前のトークンに基づいて、その後のビデオクリップのオブジェクトおよびシーントークンを予測し、生成されたオブジェクトおよびシーントークンにトークンレベルでの動的動きを追加する。
我々のフレームワークは、非条件のビデオ生成やビデオフレーム補間タスクに容易に拡張できる。
実験の結果, bair, robonet, kth, kitti, ucf101の5つの非条件映像生成ベンチマークにおいて, 新たな最先端性能が得られることがわかった。
さらにmosoは、さまざまなビデオのオブジェクトとシーンを組み合わせることで、リアルなビデオを制作できる。
関連論文リスト
- DreamRunner: Fine-Grained Storytelling Video Generation with Retrieval-Augmented Motion Adaptation [60.07447565026327]
ストーリーテリングビデオ生成(SVG)は、最近、長いマルチモーションのマルチシーンビデオを作成するタスクとして登場した。
本研究では,新しいストーリー・ツー・ビデオ生成手法であるDreamRunnerを提案する。
文字の整合性、テキストアライメント、スムーズな遷移における最先端性能を示す。
論文 参考訳(メタデータ) (2024-11-25T18:41:56Z) - Motion Control for Enhanced Complex Action Video Generation [17.98485830881648]
既存のテキスト・ツー・ビデオ(T2V)モデルは、十分に発音または複雑なアクションでビデオを生成するのに苦労することが多い。
そこで本稿では, 高精度な流体アクションで長編ビデオを生成するための新しいフレームワークであるMVideoを提案する。
MVideoは、追加の動作条件入力としてマスクシーケンスを組み込むことで、テキストプロンプトの制限を克服する。
論文 参考訳(メタデータ) (2024-11-13T04:20:45Z) - Masked Motion Encoding for Self-Supervised Video Representation Learning [84.24773072241945]
Masked Motion MMEは、外観情報と動作情報の両方を再構成し、時間的手がかりを探索する新しい事前学習パラダイムである。
物体の位置変化や形状変化を追跡することで、人間が行動を認識することができるという事実を動機として、マスク領域におけるこれらの2種類の変化を表す運動軌跡を再構築することを提案する。
我々のMMEパラダイムで事前訓練されたモデルでは、長期的かつきめ細かな動きの詳細を予測できる。
論文 参考訳(メタデータ) (2022-10-12T11:19:55Z) - Temporal View Synthesis of Dynamic Scenes through 3D Object Motion
Estimation with Multi-Plane Images [8.185918509343816]
本稿では,ビデオの次のフレームを予測することを目的として,時間的視点合成(TVS)の問題について検討する。
本研究では,ユーザとオブジェクトの両方が動いている動的シーンのTVSについて考察する。
過去のフレームにおける3次元物体の動きを分離・推定し,その外挿により物体の動きを予測する。
論文 参考訳(メタデータ) (2022-08-19T17:40:13Z) - Playable Environments: Video Manipulation in Space and Time [98.0621309257937]
再生可能な環境 - 空間と時間におけるインタラクティブなビデオ生成と操作のための新しい表現。
提案フレームワークでは,1枚の画像を推論時に生成し,対象物を3次元に移動させ,所望のアクションを連続して生成する。
提案手法は,各フレームの環境状態を構築し,提案したアクションモジュールで操作し,ボリュームレンダリングで画像空間に復号化することができる。
論文 参考訳(メタデータ) (2022-03-03T18:51:05Z) - NeuralDiff: Segmenting 3D objects that move in egocentric videos [92.95176458079047]
観測された3次元シーンを静的な背景と動的前景に分解する問題について検討する。
このタスクは、古典的な背景の減算問題を連想させるが、静的でダイナミックなシーンの全ての部分が大きな動きを生じさせるため、非常に難しい。
特に、自我中心のビデオについて検討し、動的コンポーネントを観察・移動するオブジェクトとアクターにさらに分離する。
論文 参考訳(メタデータ) (2021-10-19T12:51:35Z) - Object-Region Video Transformers [100.23380634952083]
本稿では,オブジェクト表現でトランスフォーマー映像層を拡張するエポbject中心のアプローチであるObject-Region Transformers Video(ORViT)を提案する。
ORViTブロックは2つのオブジェクトレベルのストリームで構成されています。
オブジェクト表現をトランスフォーマーアーキテクチャに組み込んだモデルの価値を実証し、全てのタスクにまたがってパフォーマンスを強く向上させ、検討する。
論文 参考訳(メタデータ) (2021-10-13T17:51:46Z) - Future Video Synthesis with Object Motion Prediction [54.31508711871764]
画像を直接合成するのではなく、複雑なシーンのダイナミクスを理解するように設計されている。
将来のシーンコンポーネントの出現は、背景の非剛性変形と移動物体のアフィン変換によって予測される。
CityscapesとKITTIデータセットの実験結果から、我々のモデルは視覚的品質と精度で最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2020-04-01T16:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。