論文の概要: VDT: General-purpose Video Diffusion Transformers via Mask Modeling
- arxiv url: http://arxiv.org/abs/2305.13311v2
- Date: Wed, 11 Oct 2023 06:28:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 22:54:07.533123
- Title: VDT: General-purpose Video Diffusion Transformers via Mask Modeling
- Title(参考訳): VDT:マスクモデリングによる汎用ビデオ拡散変換器
- Authors: Haoyu Lu, Guoxing Yang, Nanyi Fei, Yuqi Huo, Zhiwu Lu, Ping Luo,
Mingyu Ding
- Abstract要約: Video Diffusion Transformer (VDT)は、拡散に基づくビデオ生成におけるトランスフォーマーの利用の先駆者である。
本稿では,多様な映像生成シナリオに対応するために,モデルとシームレスに統合された空間時空間マスクモデリング機構を提案する。
- 参考スコア(独自算出の注目度): 62.71878864360634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work introduces Video Diffusion Transformer (VDT), which pioneers the
use of transformers in diffusion-based video generation. It features
transformer blocks with modularized temporal and spatial attention modules to
leverage the rich spatial-temporal representation inherited in transformers. We
also propose a unified spatial-temporal mask modeling mechanism, seamlessly
integrated with the model, to cater to diverse video generation scenarios. VDT
offers several appealing benefits. 1) It excels at capturing temporal
dependencies to produce temporally consistent video frames and even simulate
the physics and dynamics of 3D objects over time. 2) It facilitates flexible
conditioning information, \eg, simple concatenation in the token space,
effectively unifying different token lengths and modalities. 3) Pairing with
our proposed spatial-temporal mask modeling mechanism, it becomes a
general-purpose video diffuser for harnessing a range of tasks, including
unconditional generation, video prediction, interpolation, animation, and
completion, etc. Extensive experiments on these tasks spanning various
scenarios, including autonomous driving, natural weather, human action, and
physics-based simulation, demonstrate the effectiveness of VDT. Additionally,
we present comprehensive studies on how \model handles conditioning information
with the mask modeling mechanism, which we believe will benefit future research
and advance the field. Project page: https:VDT-2023.github.io
- Abstract(参考訳): ビデオ拡散変換器(VDT)を導入し,拡散型ビデオ生成におけるトランスフォーマーの利用を開拓した。
トランスに継承された豊富な空間的時間的表現を活用するために、モジュール化された時間的および空間的アテンションモジュールを備えたトランスフォーマーブロックを特徴とする。
また,このモデルとシームレスに統合し,多様な映像生成シナリオに対応する,空間的・時空間的マスクモデリング機構を提案する。
VDTにはいくつかの魅力的なメリットがある。
1)時間的依存を捉えて時間的に一貫したビデオフレームを生成し、時間とともに3Dオブジェクトの物理と力学をシミュレートする。
2) トークン空間における単純な結合といった柔軟な条件情報を容易にし、トークンの長さとモダリティを効果的に統一する。
3)提案する空間・時空間マスクモデリング機構と組み合わせることで,無条件生成,映像予測,補間,アニメーション,コンプリートなど,さまざまなタスクを活用する汎用ビデオディフューザとなる。
自律運転、自然天候、ヒューマンアクション、物理学に基づくシミュレーションなど、様々なシナリオにまたがるこれらのタスクに関する広範囲な実験は、vdtの有効性を示している。
さらに,モデルがマスクモデリング機構を用いて条件情報を扱う方法に関する総合的研究を行い,今後の研究や分野の進展に寄与すると考えている。
プロジェクトページ: https:VDT-2023.github.io
関連論文リスト
- MotionAura: Generating High-Quality and Motion Consistent Videos using Discrete Diffusion [3.7270979204213446]
ビデオ処理の課題に対処するための4つの重要なコントリビューションを提示する。
まず,3次元逆ベクトル量子化バリエンコエンコオートコーダを紹介する。
次に,テキスト・ビデオ生成フレームワークであるMotionAuraを紹介する。
第3に,スペクトル変換器を用いたデノナイジングネットワークを提案する。
第4に,Sketch Guided Videopaintingのダウンストリームタスクを導入する。
論文 参考訳(メタデータ) (2024-10-10T07:07:56Z) - Multi-Scale Temporal Difference Transformer for Video-Text Retrieval [10.509598789325782]
マルチスケール時間差変圧器(MSTDT)という変圧器変圧器を提案する。
MSTDTは主に、局所的な時間情報を取得する能力に制限のある従来のトランスフォーマーの欠陥に対処する。
提案手法は,短時間の時間差分変換器と長期の時間差分変換器から構成される。
論文 参考訳(メタデータ) (2024-06-23T13:59:31Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - Time Is MattEr: Temporal Self-supervision for Video Transformers [72.42240984211283]
我々は、時間的ダイナミクスをよりよく学習するために、ビデオモデルのための単純で効果的な自己教師型タスクを設計する。
ビデオフレームの時間順序を余分な自己監督として学習し、ランダムにシャッフルされたフレームを低信頼出力に強制する。
様々なビデオ行動認識タスクにおいて,本手法の有効性と最先端のビデオ変換器との互換性を実証する。
論文 参考訳(メタデータ) (2022-07-19T04:44:08Z) - VDTR: Video Deblurring with Transformer [24.20183395758706]
ビデオブレアリングは、挑戦的な時間的モデリングプロセスのため、未解決の問題である。
本稿では,トランスフォーマービデオの導出に適応する有効なトランスフォーマーモデルであるVDTRを提案する。
論文 参考訳(メタデータ) (2022-04-17T14:22:14Z) - Object-Region Video Transformers [100.23380634952083]
本稿では,オブジェクト表現でトランスフォーマー映像層を拡張するエポbject中心のアプローチであるObject-Region Transformers Video(ORViT)を提案する。
ORViTブロックは2つのオブジェクトレベルのストリームで構成されています。
オブジェクト表現をトランスフォーマーアーキテクチャに組み込んだモデルの価値を実証し、全てのタスクにまたがってパフォーマンスを強く向上させ、検討する。
論文 参考訳(メタデータ) (2021-10-13T17:51:46Z) - VideoLightFormer: Lightweight Action Recognition using Transformers [8.871042314510788]
本稿では,新しい軽量なアクション認識アーキテクチャであるVideoLightFormerを提案する。
分解された方法で、2次元畳み込み時間ネットワークを変換器で慎重に拡張する。
我々は,EPIC-KITCHENS-100とSone-SV-V-Something2データセットの高効率設定におけるビデオLightFormerの評価を行った。
論文 参考訳(メタデータ) (2021-07-01T13:55:52Z) - Space-time Mixing Attention for Video Transformer [55.50839896863275]
本稿では,ビデオシーケンス内のフレーム数と線形にスケールする複雑性をビデオトランスフォーマーモデルとして提案する。
我々は,最も人気のあるビデオ認識データセットに対して,認識精度が非常に高いことを実証した。
論文 参考訳(メタデータ) (2021-06-10T17:59:14Z) - A Video Is Worth Three Views: Trigeminal Transformers for Video-based
Person Re-identification [77.08204941207985]
ビデオベースの人物再識別(Re-ID)は、重複しないカメラで同一人物のビデオシーケンスを検索することを目的としている。
本稿では、ビデオベースのRe-IDのためのTrigeminal Transformers(TMT)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-05T02:50:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。