論文の概要: Generative Video Transformer: Can Objects be the Words?
- arxiv url: http://arxiv.org/abs/2107.09240v1
- Date: Tue, 20 Jul 2021 03:08:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-21 15:12:23.166215
- Title: Generative Video Transformer: Can Objects be the Words?
- Title(参考訳): 生成ビデオトランスフォーマー: オブジェクトは単語になるのか?
- Authors: Yi-Fu Wu, Jaesik Yoon, Sungjin Ahn
- Abstract要約: 本稿では,オブジェクト中心のアプローチを用いてシーンを生成ビデオトランスに適したトークンに分解するオブジェクト中心ビデオトランス (OCVT) を提案する。
映像をオブジェクトに分解することで、完全に教師されていないモデルでは、シーン内の複数のオブジェクトの複雑な時間的ダイナミクスを学習し、ビデオの将来のフレームを生成することができる。
私たちのモデルはピクセルベースモデルよりもメモリ効率が大幅に向上し、48GBのGPUで最大70フレームの動画をトレーニングすることができます。
- 参考スコア(独自算出の注目度): 22.788711301106765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have been successful for many natural language processing tasks.
However, applying transformers to the video domain for tasks such as long-term
video generation and scene understanding has remained elusive due to the high
computational complexity and the lack of natural tokenization. In this paper,
we propose the Object-Centric Video Transformer (OCVT) which utilizes an
object-centric approach for decomposing scenes into tokens suitable for use in
a generative video transformer. By factoring the video into objects, our fully
unsupervised model is able to learn complex spatio-temporal dynamics of
multiple interacting objects in a scene and generate future frames of the
video. Our model is also significantly more memory-efficient than pixel-based
models and thus able to train on videos of length up to 70 frames with a single
48GB GPU. We compare our model with previous RNN-based approaches as well as
other possible video transformer baselines. We demonstrate OCVT performs well
when compared to baselines in generating future frames. OCVT also develops
useful representations for video reasoning, achieving start-of-the-art
performance on the CATER task.
- Abstract(参考訳): トランスフォーマーは多くの自然言語処理タスクで成功している。
しかし,映像領域への変換器の適用は,計算の複雑さや自然なトークン化の欠如が原因で,長期的な映像生成やシーン理解といったタスクに引き続き適用されてきた。
本稿では、オブジェクト中心のアプローチを用いてシーンを生成ビデオ変換器に用いるのに適したトークンに分解するオブジェクト中心ビデオ変換器(OCVT)を提案する。
映像をオブジェクトに分解することで、シーン内の複数の対話オブジェクトの複雑な時空間ダイナミクスを学習し、将来のビデオフレームを生成することができる。
私たちのモデルはピクセルベースモデルよりもメモリ効率が大幅に向上し、48GBのGPUで最大70フレームの動画をトレーニングすることができます。
我々は、従来のRNNベースのアプローチや、他のビデオトランスフォーマーベースラインと比較する。
我々は,将来のフレーム生成におけるベースラインと比較して,OCVTの性能を実証する。
OCVTはビデオ推論に有用な表現も開発し、CATERタスクで最先端のパフォーマンスを実現する。
関連論文リスト
- Multi-entity Video Transformers for Fine-Grained Video Representation
Learning [36.31020249963468]
ビデオ表現学習のためのトランスフォーマーアーキテクチャの設計を再検討する。
我々の自己監督手法の健全な側面は、時間的パイプラインにおける空間情報の統合の改善である。
我々のMV-Former(Multi-entity Video Transformer)アーキテクチャは、複数のきめ細かいビデオベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-17T21:23:12Z) - SViTT: Temporal Learning of Sparse Video-Text Transformers [65.93031164906812]
SViTTは,多フレーム推論が可能な疎ビデオテキストアーキテクチャであり,注目度の高い単純変換器よりもはるかに低コストである。
SViTTは、自己注意におけるトークン間のクエリキー通信を制限するエッジ空間と、非形式的視覚トークンを破棄する空間の2つの形式を採用している。
論文 参考訳(メタデータ) (2023-04-18T08:17:58Z) - EgoViT: Pyramid Video Transformer for Egocentric Action Recognition [18.05706639179499]
手と物体の相互作用を捉えることは、自我中心の動画から人間の行動を自律的に検出する上で重要である。
エゴセントリックなアクション認識のための動的クラストークン生成器を備えたピラミッドビデオ変換器を提案する。
論文 参考訳(メタデータ) (2023-03-15T20:33:50Z) - Patch-based Object-centric Transformers for Efficient Video Generation [71.55412580325743]
本稿では,新しい領域ベースビデオ生成アーキテクチャであるPatch-based Object-centric Video Transformer(POVT)を提案する。
圧縮ビデオの離散遅延空間上の自己回帰変換器を用いて、ビデオ予測における先行作業を構築した。
オブジェクト中心表現の圧縮性の向上により、より長い水平時間情報に対してオブジェクト情報のみにアクセスできるようにすることで、トレーニング効率を向上させることができる。
論文 参考訳(メタデータ) (2022-06-08T16:29:59Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - Video Transformers: A Survey [42.314208650554264]
ビデオデータのモデル化にトランスフォーマーを適用するための貢献とトレンドについて検討する。
具体的には、ビデオの埋め込みとトークン化の方法を掘り下げて、大きなCNNバックボーンの非常にウィドスプレッドな使用法を見つけます。
また,ビデオトランスフォーマーの訓練に使用される自己監督的損失の分析を行った。
論文 参考訳(メタデータ) (2022-01-16T07:31:55Z) - VIOLET : End-to-End Video-Language Transformers with Masked Visual-token
Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。
我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:31:20Z) - Video Generation from Text Employing Latent Path Construction for
Temporal Modeling [70.06508219998778]
ビデオ生成は、機械学習とコンピュータビジョンの分野における最も困難なタスクの1つである。
本稿では,映像生成の条件形式であるテキストから映像生成の問題に取り組む。
自然言語文からのビデオ生成が人工知能に重要な影響を与えると考えている。
論文 参考訳(メタデータ) (2021-07-29T06:28:20Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。