論文の概要: Temporally Consistent Transformers for Video Generation
- arxiv url: http://arxiv.org/abs/2210.02396v2
- Date: Wed, 31 May 2023 20:19:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-03 01:32:25.567791
- Title: Temporally Consistent Transformers for Video Generation
- Title(参考訳): ビデオ生成のための時間整合トランス
- Authors: Wilson Yan, Danijar Hafner, Stephen James, Pieter Abbeel
- Abstract要約: 正確なビデオを生成するには、アルゴリズムは世界の空間的および時間的依存関係を理解する必要がある。
時間依存性のあるビデオ生成を厳格に評価するために、複雑なデータに関する確立されたベンチマークは存在しない。
本稿では,長期間の一貫性を著しく向上し,サンプリング時間を短縮するTemporally Consistent Transformer(TECO)を提案する。
- 参考スコア(独自算出の注目度): 80.45230642225913
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To generate accurate videos, algorithms have to understand the spatial and
temporal dependencies in the world. Current algorithms enable accurate
predictions over short horizons but tend to suffer from temporal
inconsistencies. When generated content goes out of view and is later
revisited, the model invents different content instead. Despite this severe
limitation, no established benchmarks on complex data exist for rigorously
evaluating video generation with long temporal dependencies. In this paper, we
curate 3 challenging video datasets with long-range dependencies by rendering
walks through 3D scenes of procedural mazes, Minecraft worlds, and indoor
scans. We perform a comprehensive evaluation of current models and observe
their limitations in temporal consistency. Moreover, we introduce the
Temporally Consistent Transformer (TECO), a generative model that substantially
improves long-term consistency while also reducing sampling time. By
compressing its input sequence into fewer embeddings, applying a temporal
transformer, and expanding back using a spatial MaskGit, TECO outperforms
existing models across many metrics. Videos are available on the website:
https://wilson1yan.github.io/teco
- Abstract(参考訳): 正確なビデオを生成するには、アルゴリズムは世界の空間的および時間的依存関係を理解する必要がある。
現在のアルゴリズムは、短い水平線上で正確な予測を可能にするが、時間的矛盾に悩まされる傾向がある。
生成されたコンテンツが視界外になり、後に再考されると、モデルは代わりに異なるコンテンツを発明する。
この厳しい制限にもかかわらず、時間依存の長いビデオ生成を厳格に評価するための、複雑なデータに関する確立されたベンチマークは存在しない。
本稿では,手続き迷路,マインクラフトワールド,屋内スキャンの3dシーンを歩みながら3つの難易度の高い映像データセットをキュレートする。
我々は,現在のモデルの包括的評価を行い,その時間的一貫性の限界を観察する。
さらに, サンプリング時間を短縮しつつ, 長期一貫性を大幅に向上させる生成モデルであるtemporly consistent transformer (teco)を導入する。
入力シーケンスをより少ない埋め込みに圧縮し、時間的トランスフォーマーを適用し、空間的マスクギットで拡張することで、tecoは既存のモデルを多くのメトリクスで上回っている。
ビデオは、Webサイト(https://wilson1yan.github.io/teco)で公開されている。
関連論文リスト
- MAMBA4D: Efficient Long-Sequence Point Cloud Video Understanding with Disentangled Spatial-Temporal State Space Models [14.024240637175216]
我々は、最近進歩したステートスペースモデル(SSM)に基づく、新しい4Dポイントクラウドビデオ理解バックボーンを提案する。
具体的には、私たちのバックボーンは、生の4Dジオメトリで空間と時間を取り除き、セマンティック・テンポラルなビデオを確立することから始まります。
我々の手法は、トランスフォーマーベースのMS3Dと比較して、87.5%のメモリ削減、5.36倍のスピードアップ、さらにはるかに高い精度(+104%)を持つ。
論文 参考訳(メタデータ) (2024-05-23T09:08:09Z) - Spatial Decomposition and Temporal Fusion based Inter Prediction for
Learned Video Compression [59.632286735304156]
学習ビデオ圧縮のための空間分解と時間融合に基づく相互予測を提案する。
SDDに基づく動きモデルと長時間の時間的融合により,提案した学習ビデオはより正確な相互予測コンテキストを得ることができる。
論文 参考訳(メタデータ) (2024-01-29T03:30:21Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - SViTT: Temporal Learning of Sparse Video-Text Transformers [65.93031164906812]
SViTTは,多フレーム推論が可能な疎ビデオテキストアーキテクチャであり,注目度の高い単純変換器よりもはるかに低コストである。
SViTTは、自己注意におけるトークン間のクエリキー通信を制限するエッジ空間と、非形式的視覚トークンを破棄する空間の2つの形式を採用している。
論文 参考訳(メタデータ) (2023-04-18T08:17:58Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - Real-time Online Video Detection with Temporal Smoothing Transformers [4.545986838009774]
優れたストリーミング認識モデルは、ビデオの長期的ダイナミクスと短期的変化の両方をキャプチャする。
この問題に対処するため、カーネルのレンズを通してビデオトランスのクロスアテンションを再構成する。
テンポラルスムース変換器であるTeSTraを構築し、キャッシュと計算オーバーヘッドを一定に保ちながら任意の長さの入力を行う。
論文 参考訳(メタデータ) (2022-09-19T17:59:02Z) - Generating Long Videos of Dynamic Scenes [66.56925105992472]
本稿では、物体の動きを再現する映像生成モデル、カメラ視点の変化、時間とともに現れる新しいコンテンツについて述べる。
よくある障害ケースは、コンテンツが時間的一貫性を提供する誘導バイアスに過度に依存するため、決して変化しないことです。
論文 参考訳(メタデータ) (2022-06-07T16:29:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。