論文の概要: Temporally Consistent Video Transformer for Long-Term Video Prediction
- arxiv url: http://arxiv.org/abs/2210.02396v1
- Date: Wed, 5 Oct 2022 17:15:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 12:41:01.388066
- Title: Temporally Consistent Video Transformer for Long-Term Video Prediction
- Title(参考訳): 長期映像予測のための時間整合ビデオトランス
- Authors: Wilson Yan, Danijar Hafner, Stephen James, Pieter Abbeel
- Abstract要約: 本稿では,ベクトル量子化潜在動的ビデオ予測モデルであるTECO(Temporally Consistent Video Transformer)を提案する。
TECOは圧縮表現を学習し、トレーニングと生成の両方の間、数百フレームの長いビデオを効率的に条件付けする。
実験の結果,TECOはDMLabの単純な迷路からMinecraftの大規模な3D世界に至るまで,様々なビデオ予測ベンチマークにおいてSOTAベースラインを上回っていることがわかった。
- 参考スコア(独自算出の注目度): 80.45230642225913
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating long, temporally consistent video remains an open challenge in
video generation. Primarily due to computational limitations, most prior
methods limit themselves to training on a small subset of frames that are then
extended to generate longer videos through a sliding window fashion. Although
these techniques may produce sharp videos, they have difficulty retaining
long-term temporal consistency due to their limited context length. In this
work, we present Temporally Consistent Video Transformer (TECO), a
vector-quantized latent dynamics video prediction model that learns compressed
representations to efficiently condition on long videos of hundreds of frames
during both training and generation. We use a MaskGit prior for dynamics
prediction which enables both sharper and faster generations compared to prior
work. Our experiments show that TECO outperforms SOTA baselines in a variety of
video prediction benchmarks ranging from simple mazes in DMLab, large 3D worlds
in Minecraft, and complex real-world videos from Kinetics-600. In addition, to
better understand the capabilities of video prediction models in modeling
temporal consistency, we introduce several challenging video prediction tasks
consisting of agents randomly traversing 3D scenes of varying difficulty. This
presents a challenging benchmark for video prediction in partially observable
environments where a model must understand what parts of the scenes to
re-create versus invent depending on its past observations or generations.
Generated videos are available at https://wilson1yan.github.io/teco
- Abstract(参考訳): 長い時間的に一貫性のあるビデオを生成することは、ビデオ生成におけるオープンな課題である。
主に計算上の制限のため、ほとんどの先行手法は、スライドウィンドウ方式で長いビデオを生成するために拡張されたフレームの小さなサブセットでのトレーニングに制限される。
これらの技術はシャープなビデオを生成する可能性があるが、文脈長が限られているため、長期的な時間的一貫性を維持するのが困難である。
本研究では,圧縮表現を学習し,トレーニングと生成の両方において数百フレームの長い映像を効率的に処理する,ベクトル量子化潜時動画像予測モデルteco(temporly consistent video transformer)を提案する。
動的予測にはMaskGitを前もって使用し、前よりもシャープで高速な世代を生成する。
実験の結果,TECOはDMLabの単純な迷路,Minecraftの大きな3Dワールド,Kinetics-600の複雑な実世界のビデオなど,さまざまなビデオ予測ベンチマークにおいて,SOTAのベースラインを上回っていることがわかった。
さらに,時間的一貫性のモデル化における映像予測モデルの能力の理解を深めるために,様々な難易度を持つ3dシーンをランダムに横断するエージェントからなる,いくつかの挑戦的な映像予測タスクを導入する。
これは、モデルが過去の観察や世代に応じて再創造するシーンのどの部分かを理解する必要がある部分観測可能な環境でのビデオ予測の難しいベンチマークを示す。
生成されたビデオはhttps://wilson1yan.github.io/tecoで入手できる。
関連論文リスト
- SwiftTry: Fast and Consistent Video Virtual Try-On with Diffusion Models [10.66567645920237]
本研究の目的は,被服が時間的整合性を維持しつつ着ている新しい映像を合成することである。
我々は,映像仮想試着を条件付き映像塗装作業として再認識し,衣服を入力条件として機能させる。
具体的には,時間的注意層を取り入れた画像拡散モデルを構築し,時間的コヒーレンスを改善する。
論文 参考訳(メタデータ) (2024-12-13T14:50:26Z) - MAMBA4D: Efficient Long-Sequence Point Cloud Video Understanding with Disentangled Spatial-Temporal State Space Models [14.024240637175216]
状態空間モデル(SSM)に基づく新しい点雲理解バックボーンを提案する。
具体的には,まず空間と時間を4次元ビデオシーケンスで切り離し,設計したマンバブロックと空間的時間的相関を確立する。
提案手法は, 87.5%のGPUメモリ削減と5.36倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-05-23T09:08:09Z) - Spatial Decomposition and Temporal Fusion based Inter Prediction for
Learned Video Compression [59.632286735304156]
学習ビデオ圧縮のための空間分解と時間融合に基づく相互予測を提案する。
SDDに基づく動きモデルと長時間の時間的融合により,提案した学習ビデオはより正確な相互予測コンテキストを得ることができる。
論文 参考訳(メタデータ) (2024-01-29T03:30:21Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - SViTT: Temporal Learning of Sparse Video-Text Transformers [65.93031164906812]
SViTTは,多フレーム推論が可能な疎ビデオテキストアーキテクチャであり,注目度の高い単純変換器よりもはるかに低コストである。
SViTTは、自己注意におけるトークン間のクエリキー通信を制限するエッジ空間と、非形式的視覚トークンを破棄する空間の2つの形式を採用している。
論文 参考訳(メタデータ) (2023-04-18T08:17:58Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - Real-time Online Video Detection with Temporal Smoothing Transformers [4.545986838009774]
優れたストリーミング認識モデルは、ビデオの長期的ダイナミクスと短期的変化の両方をキャプチャする。
この問題に対処するため、カーネルのレンズを通してビデオトランスのクロスアテンションを再構成する。
テンポラルスムース変換器であるTeSTraを構築し、キャッシュと計算オーバーヘッドを一定に保ちながら任意の長さの入力を行う。
論文 参考訳(メタデータ) (2022-09-19T17:59:02Z) - Generating Long Videos of Dynamic Scenes [66.56925105992472]
本稿では、物体の動きを再現する映像生成モデル、カメラ視点の変化、時間とともに現れる新しいコンテンツについて述べる。
よくある障害ケースは、コンテンツが時間的一貫性を提供する誘導バイアスに過度に依存するため、決して変化しないことです。
論文 参考訳(メタデータ) (2022-06-07T16:29:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。