論文の概要: VDT: An Empirical Study on Video Diffusion with Transformers
- arxiv url: http://arxiv.org/abs/2305.13311v1
- Date: Mon, 22 May 2023 17:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-05-23 13:31:12.468289
- Title: VDT: An Empirical Study on Video Diffusion with Transformers
- Title(参考訳): VDT:変圧器を用いたビデオ拡散に関する実証的研究
- Authors: Haoyu Lu, Guoxing Yang, Nanyi Fei, Yuqi Huo, Zhiwu Lu, Ping Luo,
Mingyu Ding
- Abstract要約: ビデオ拡散変換器(VDT)を導入し,拡散型ビデオ生成におけるトランスフォーマーの利用を開拓した。
モジュール化された時間的および空間的アテンションモジュールを備えたトランスフォーマーブロックを備えており、各コンポーネントを個別に最適化することができる。
VDTは時間的依存を捉えて時間的に一貫したビデオフレームを生成し、時間とともに3Dオブジェクトのダイナミクスをシミュレートする。
- 参考スコア(独自算出の注目度): 43.17519533376164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work introduces Video Diffusion Transformer (VDT), which pioneers the
use of transformers in diffusion-based video generation. It features
transformer blocks with modularized temporal and spatial attention modules,
allowing separate optimization of each component and leveraging the rich
spatial-temporal representation inherited from transformers. VDT offers several
appealing benefits. 1) It excels at capturing temporal dependencies to produce
temporally consistent video frames and even simulate the dynamics of 3D objects
over time. 2) It enables flexible conditioning information through simple
concatenation in the token space, effectively unifying video generation and
prediction tasks. 3) Its modularized design facilitates a spatial-temporal
decoupled training strategy, leading to improved efficiency. Extensive
experiments on video generation, prediction, and dynamics modeling (i.e.,
physics-based QA) tasks have been conducted to demonstrate the effectiveness of
VDT in various scenarios, including autonomous driving, human action, and
physics-based simulation.
We hope our study on the capabilities of transformer-based video diffusion in
capturing accurate temporal dependencies, handling conditioning information,
and achieving efficient training will benefit future research and advance the
field. Codes and models are available at https://github.com/RERV/VDT.
- Abstract(参考訳): ビデオ拡散変換器(VDT)を導入し,拡散型ビデオ生成におけるトランスフォーマーの利用を開拓した。
モジュール化された時間的および空間的注意モジュールを備えた変圧器ブロックを備え、各コンポーネントを個別に最適化し、変圧器から受け継いだ豊富な時空間表現を活用する。
VDTにはいくつかの魅力的なメリットがある。
1)時間的依存を捉えて時間的に一貫したビデオフレームを生成し、時間とともに3Dオブジェクトのダイナミクスをシミュレートする。
2)トークン空間における単純な結合による柔軟なコンディショニング情報を可能にし,映像生成と予測タスクを効果的に統一する。
3) そのモジュラー化設計は, 空間的時間的分離学習戦略を促進させ, 効率の向上に繋がる。
ビデオ生成,予測,動力学的モデリング(物理に基づくQA)に関する広範囲な実験を行い,自律運転,ヒューマンアクション,物理に基づくシミュレーションなど,様々なシナリオにおけるVDTの有効性を実証した。
我々は,トランスフォーマーによる映像拡散による正確な時間依存性の把握,条件情報処理,効率的なトレーニングの実現が今後の研究や分野の発展に寄与することを願っている。
コードとモデルはhttps://github.com/RERV/VDT.comで公開されている。
関連論文リスト
- VHOI: Controllable Video Generation of Human-Object Interactions from Sparse Trajectories via Motion Densification [65.15340059997273]
VHOIは、ビデオにおける現実的な人間とオブジェクトの相互作用を作成するためのフレームワークである。
そこで本研究では,人体と物体の運動だけでなく,身体部分特異的な動特性も識別するために,色エンコーディングを用いた新しいHOI対応動作表現を提案する。
実験は、制御可能なHOIビデオ生成における最先端の結果を示す。
論文 参考訳(メタデータ) (2025-12-10T13:40:24Z) - CVD-STORM: Cross-View Video Diffusion with Spatial-Temporal Reconstruction Model for Autonomous Driving [26.379817613036597]
CVD-STORMは時空間再構成変分オートエンコーダ(VAE)を利用したクロスビュービデオ拡散モデルである
提案手法は,まず補助的な4次元再構成タスクでVAEを微調整し,その3次元構造と時間的ダイナミクスをエンコードする能力を向上する。
実験結果から,FIDとFVDの両指標の精度向上が得られた。
論文 参考訳(メタデータ) (2025-10-09T08:41:58Z) - Learning to Generate Object Interactions with Physics-Guided Video Diffusion [28.191514920144456]
我々は,現実的な剛体制御,インタラクション,エフェクトを可能にする物理誘導型ビデオ生成のアプローチであるKineMaskを紹介する。
本研究では,物体マスクによる将来の運動監視を段階的に除去する2段階のトレーニング戦略を提案する。
実験により、KineMaskは、同等の大きさの最近のモデルよりも強力な改善を達成している。
論文 参考訳(メタデータ) (2025-10-02T17:56:46Z) - VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。
新しい仮面融合はSAM2を双方向の点伝播に用いている。
The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文 参考訳(メタデータ) (2025-06-05T17:59:29Z) - InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [50.38647583839384]
我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブな動画像を生成するフレームワークであるInterDynを提案する。
我々の重要な洞察は、大規模なビデオ生成モデルは、大規模ビデオデータからインタラクティブなダイナミクスを学習し、ニューラルと暗黙の物理シミュレーターの両方として機能できるということです。
論文 参考訳(メタデータ) (2024-12-16T13:57:02Z) - MotionAura: Generating High-Quality and Motion Consistent Videos using Discrete Diffusion [3.7270979204213446]
ビデオ処理の課題に対処するための4つの重要なコントリビューションを提示する。
まず,3次元逆ベクトル量子化バリエンコエンコオートコーダを紹介する。
次に,テキスト・ビデオ生成フレームワークであるMotionAuraを紹介する。
第3に,スペクトル変換器を用いたデノナイジングネットワークを提案する。
第4に,Sketch Guided Videopaintingのダウンストリームタスクを導入する。
論文 参考訳(メタデータ) (2024-10-10T07:07:56Z) - Multi-Scale Temporal Difference Transformer for Video-Text Retrieval [10.509598789325782]
マルチスケール時間差変圧器(MSTDT)という変圧器変圧器を提案する。
MSTDTは主に、局所的な時間情報を取得する能力に制限のある従来のトランスフォーマーの欠陥に対処する。
提案手法は,短時間の時間差分変換器と長期の時間差分変換器から構成される。
論文 参考訳(メタデータ) (2024-06-23T13:59:31Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - Time Is MattEr: Temporal Self-supervision for Video Transformers [72.42240984211283]
我々は、時間的ダイナミクスをよりよく学習するために、ビデオモデルのための単純で効果的な自己教師型タスクを設計する。
ビデオフレームの時間順序を余分な自己監督として学習し、ランダムにシャッフルされたフレームを低信頼出力に強制する。
様々なビデオ行動認識タスクにおいて,本手法の有効性と最先端のビデオ変換器との互換性を実証する。
論文 参考訳(メタデータ) (2022-07-19T04:44:08Z) - VDTR: Video Deblurring with Transformer [24.20183395758706]
ビデオブレアリングは、挑戦的な時間的モデリングプロセスのため、未解決の問題である。
本稿では,トランスフォーマービデオの導出に適応する有効なトランスフォーマーモデルであるVDTRを提案する。
論文 参考訳(メタデータ) (2022-04-17T14:22:14Z) - Object-Region Video Transformers [100.23380634952083]
本稿では,オブジェクト表現でトランスフォーマー映像層を拡張するエポbject中心のアプローチであるObject-Region Transformers Video(ORViT)を提案する。
ORViTブロックは2つのオブジェクトレベルのストリームで構成されています。
オブジェクト表現をトランスフォーマーアーキテクチャに組み込んだモデルの価値を実証し、全てのタスクにまたがってパフォーマンスを強く向上させ、検討する。
論文 参考訳(メタデータ) (2021-10-13T17:51:46Z) - VideoLightFormer: Lightweight Action Recognition using Transformers [8.871042314510788]
本稿では,新しい軽量なアクション認識アーキテクチャであるVideoLightFormerを提案する。
分解された方法で、2次元畳み込み時間ネットワークを変換器で慎重に拡張する。
我々は,EPIC-KITCHENS-100とSone-SV-V-Something2データセットの高効率設定におけるビデオLightFormerの評価を行った。
論文 参考訳(メタデータ) (2021-07-01T13:55:52Z) - Space-time Mixing Attention for Video Transformer [55.50839896863275]
本稿では,ビデオシーケンス内のフレーム数と線形にスケールする複雑性をビデオトランスフォーマーモデルとして提案する。
我々は,最も人気のあるビデオ認識データセットに対して,認識精度が非常に高いことを実証した。
論文 参考訳(メタデータ) (2021-06-10T17:59:14Z) - A Video Is Worth Three Views: Trigeminal Transformers for Video-based
Person Re-identification [77.08204941207985]
ビデオベースの人物再識別(Re-ID)は、重複しないカメラで同一人物のビデオシーケンスを検索することを目的としている。
本稿では、ビデオベースのRe-IDのためのTrigeminal Transformers(TMT)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-05T02:50:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。