論文の概要: VDT: An Empirical Study on Video Diffusion with Transformers
- arxiv url: http://arxiv.org/abs/2305.13311v1
- Date: Mon, 22 May 2023 17:59:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 13:31:12.468289
- Title: VDT: An Empirical Study on Video Diffusion with Transformers
- Title(参考訳): VDT:変圧器を用いたビデオ拡散に関する実証的研究
- Authors: Haoyu Lu, Guoxing Yang, Nanyi Fei, Yuqi Huo, Zhiwu Lu, Ping Luo,
Mingyu Ding
- Abstract要約: ビデオ拡散変換器(VDT)を導入し,拡散型ビデオ生成におけるトランスフォーマーの利用を開拓した。
モジュール化された時間的および空間的アテンションモジュールを備えたトランスフォーマーブロックを備えており、各コンポーネントを個別に最適化することができる。
VDTは時間的依存を捉えて時間的に一貫したビデオフレームを生成し、時間とともに3Dオブジェクトのダイナミクスをシミュレートする。
- 参考スコア(独自算出の注目度): 43.17519533376164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work introduces Video Diffusion Transformer (VDT), which pioneers the
use of transformers in diffusion-based video generation. It features
transformer blocks with modularized temporal and spatial attention modules,
allowing separate optimization of each component and leveraging the rich
spatial-temporal representation inherited from transformers. VDT offers several
appealing benefits. 1) It excels at capturing temporal dependencies to produce
temporally consistent video frames and even simulate the dynamics of 3D objects
over time. 2) It enables flexible conditioning information through simple
concatenation in the token space, effectively unifying video generation and
prediction tasks. 3) Its modularized design facilitates a spatial-temporal
decoupled training strategy, leading to improved efficiency. Extensive
experiments on video generation, prediction, and dynamics modeling (i.e.,
physics-based QA) tasks have been conducted to demonstrate the effectiveness of
VDT in various scenarios, including autonomous driving, human action, and
physics-based simulation.
We hope our study on the capabilities of transformer-based video diffusion in
capturing accurate temporal dependencies, handling conditioning information,
and achieving efficient training will benefit future research and advance the
field. Codes and models are available at https://github.com/RERV/VDT.
- Abstract(参考訳): ビデオ拡散変換器(VDT)を導入し,拡散型ビデオ生成におけるトランスフォーマーの利用を開拓した。
モジュール化された時間的および空間的注意モジュールを備えた変圧器ブロックを備え、各コンポーネントを個別に最適化し、変圧器から受け継いだ豊富な時空間表現を活用する。
VDTにはいくつかの魅力的なメリットがある。
1)時間的依存を捉えて時間的に一貫したビデオフレームを生成し、時間とともに3Dオブジェクトのダイナミクスをシミュレートする。
2)トークン空間における単純な結合による柔軟なコンディショニング情報を可能にし,映像生成と予測タスクを効果的に統一する。
3) そのモジュラー化設計は, 空間的時間的分離学習戦略を促進させ, 効率の向上に繋がる。
ビデオ生成,予測,動力学的モデリング(物理に基づくQA)に関する広範囲な実験を行い,自律運転,ヒューマンアクション,物理に基づくシミュレーションなど,様々なシナリオにおけるVDTの有効性を実証した。
我々は,トランスフォーマーによる映像拡散による正確な時間依存性の把握,条件情報処理,効率的なトレーニングの実現が今後の研究や分野の発展に寄与することを願っている。
コードとモデルはhttps://github.com/RERV/VDT.comで公開されている。
関連論文リスト
- MotionAura: Generating High-Quality and Motion Consistent Videos using Discrete Diffusion [3.7270979204213446]
ビデオ処理の課題に対処するための4つの重要なコントリビューションを提示する。
まず,3次元逆ベクトル量子化バリエンコエンコオートコーダを紹介する。
次に,テキスト・ビデオ生成フレームワークであるMotionAuraを紹介する。
第3に,スペクトル変換器を用いたデノナイジングネットワークを提案する。
第4に,Sketch Guided Videopaintingのダウンストリームタスクを導入する。
論文 参考訳(メタデータ) (2024-10-10T07:07:56Z) - Multi-Scale Temporal Difference Transformer for Video-Text Retrieval [10.509598789325782]
マルチスケール時間差変圧器(MSTDT)という変圧器変圧器を提案する。
MSTDTは主に、局所的な時間情報を取得する能力に制限のある従来のトランスフォーマーの欠陥に対処する。
提案手法は,短時間の時間差分変換器と長期の時間差分変換器から構成される。
論文 参考訳(メタデータ) (2024-06-23T13:59:31Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - Time Is MattEr: Temporal Self-supervision for Video Transformers [72.42240984211283]
我々は、時間的ダイナミクスをよりよく学習するために、ビデオモデルのための単純で効果的な自己教師型タスクを設計する。
ビデオフレームの時間順序を余分な自己監督として学習し、ランダムにシャッフルされたフレームを低信頼出力に強制する。
様々なビデオ行動認識タスクにおいて,本手法の有効性と最先端のビデオ変換器との互換性を実証する。
論文 参考訳(メタデータ) (2022-07-19T04:44:08Z) - VDTR: Video Deblurring with Transformer [24.20183395758706]
ビデオブレアリングは、挑戦的な時間的モデリングプロセスのため、未解決の問題である。
本稿では,トランスフォーマービデオの導出に適応する有効なトランスフォーマーモデルであるVDTRを提案する。
論文 参考訳(メタデータ) (2022-04-17T14:22:14Z) - Object-Region Video Transformers [100.23380634952083]
本稿では,オブジェクト表現でトランスフォーマー映像層を拡張するエポbject中心のアプローチであるObject-Region Transformers Video(ORViT)を提案する。
ORViTブロックは2つのオブジェクトレベルのストリームで構成されています。
オブジェクト表現をトランスフォーマーアーキテクチャに組み込んだモデルの価値を実証し、全てのタスクにまたがってパフォーマンスを強く向上させ、検討する。
論文 参考訳(メタデータ) (2021-10-13T17:51:46Z) - VideoLightFormer: Lightweight Action Recognition using Transformers [8.871042314510788]
本稿では,新しい軽量なアクション認識アーキテクチャであるVideoLightFormerを提案する。
分解された方法で、2次元畳み込み時間ネットワークを変換器で慎重に拡張する。
我々は,EPIC-KITCHENS-100とSone-SV-V-Something2データセットの高効率設定におけるビデオLightFormerの評価を行った。
論文 参考訳(メタデータ) (2021-07-01T13:55:52Z) - Space-time Mixing Attention for Video Transformer [55.50839896863275]
本稿では,ビデオシーケンス内のフレーム数と線形にスケールする複雑性をビデオトランスフォーマーモデルとして提案する。
我々は,最も人気のあるビデオ認識データセットに対して,認識精度が非常に高いことを実証した。
論文 参考訳(メタデータ) (2021-06-10T17:59:14Z) - A Video Is Worth Three Views: Trigeminal Transformers for Video-based
Person Re-identification [77.08204941207985]
ビデオベースの人物再識別(Re-ID)は、重複しないカメラで同一人物のビデオシーケンスを検索することを目的としている。
本稿では、ビデオベースのRe-IDのためのTrigeminal Transformers(TMT)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-05T02:50:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。