論文の概要: Tora: Trajectory-oriented Diffusion Transformer for Video Generation
- arxiv url: http://arxiv.org/abs/2407.21705v1
- Date: Wed, 31 Jul 2024 15:53:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 12:17:56.514328
- Title: Tora: Trajectory-oriented Diffusion Transformer for Video Generation
- Title(参考訳): Tora:ビデオ生成のための軌道指向拡散変換器
- Authors: Zhenghao Zhang, Junchao Liao, Menghao Li, Long Qin, Weizhi Wang,
- Abstract要約: Toraは、ビデオ生成のためにテキスト、視覚、軌跡条件を同時に統合する最初のトラジェクトリ指向のDiTフレームワークである。
Toraは、任意の軌道を階層的な時空運動パッチに3Dビデオ圧縮ネットワークでエンコードする。
我々の設計はDiTのスケーラビリティとシームレスに一致し、様々な期間、アスペクト比、解像度で映像コンテンツのダイナミクスを正確に制御できる。
- 参考スコア(独自算出の注目度): 10.42091119307554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Diffusion Transformer (DiT) have demonstrated remarkable proficiency in producing high-quality video content. Nonetheless, the potential of transformer-based diffusion models for effectively generating videos with controllable motion remains an area of limited exploration. This paper introduces Tora, the first trajectory-oriented DiT framework that integrates textual, visual, and trajectory conditions concurrently for video generation. Specifically, Tora consists of a Trajectory Extractor~(TE), a Spatial-Temporal DiT, and a Motion-guidance Fuser~(MGF). The TE encodes arbitrary trajectories into hierarchical spacetime motion patches with a 3D video compression network. The MGF integrates the motion patches into the DiT blocks to generate consistent videos following trajectories. Our design aligns seamlessly with DiT's scalability, allowing precise control of video content's dynamics with diverse durations, aspect ratios, and resolutions. Extensive experiments demonstrate Tora's excellence in achieving high motion fidelity, while also meticulously simulating the movement of the physical world. Page can be found at https://ali-videoai.github.io/tora_video.
- Abstract(参考訳): 拡散変換器(DiT)の最近の進歩は,高品質な映像コンテンツの製作に顕著な熟練性を示している。
それでも、制御可能なモーションで映像を効果的に生成するトランスフォーマーベースの拡散モデルの可能性は、探索の限られた領域に留まっている。
本稿では,ビデオ生成のためにテキスト,視覚,軌跡条件を同時に統合した最初のトラジェクトリ指向のDiTフレームワークであるToraを紹介する。
具体的には、トラジェクティブ・エクストラクタ〜(TE)、空間的テンポラル・ディT、モーションガイダンス・フーザー〜(MGF)から構成される。
TEは、任意の軌道を階層的な時空運動パッチに3Dビデオ圧縮ネットワークで符号化する。
MGFは、モーションパッチをDiTブロックに統合し、トラジェクトリに続く一貫したビデオを生成する。
我々の設計はDiTのスケーラビリティとシームレスに一致し、様々な期間、アスペクト比、解像度で映像コンテンツのダイナミクスを正確に制御できる。
広範囲にわたる実験は、Toraが高い動きの忠実さを達成するのに優れており、物理世界の動きを巧みにシミュレートしていることを示している。
Pageはhttps://ali-videoai.github.io/tora_videoで見ることができる。
関連論文リスト
- EasyAnimate: A High-Performance Long Video Generation Method based on Transformer Architecture [11.587428534308945]
EasyAnimateは、高性能な結果を得るためにトランスフォーマーアーキテクチャのパワーを利用する、ビデオ生成の先進的な方法である。
動作モジュールブロックを組み込んで,3次元映像生成の複雑さに対応するために,当初2次元画像合成用に設計されたDiTフレームワークを拡張した。
我々は、データ前処理、VAEトレーニング、DiTモデルトレーニング、エンドツーエンドのビデオ推論といった側面を含む、DiTに基づくビデオ制作のための総合的なエコシステムを提供する。
論文 参考訳(メタデータ) (2024-05-29T11:11:07Z) - TC4D: Trajectory-Conditioned Text-to-4D Generation [98.2505675929786]
提案するTC4D: trajectory-conditioned text-to-4D 生成は,グローバルおよびローカルなコンポーネントへの移動を要因とする。
我々は,テキスト・ビデオ・モデルから,グローバルな軌跡に適合する局所的な変形を観察する。
提案手法は,任意の軌跡に沿ってアニメーションされたシーンの合成,構成シーンの生成,および生成した動きのリアリズムと量に対する大幅な改善を可能にする。
論文 参考訳(メタデータ) (2024-03-26T17:55:11Z) - Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。
SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。
大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文 参考訳(メタデータ) (2024-03-22T14:47:18Z) - TDViT: Temporal Dilated Video Transformer for Dense Video Tasks [35.16197118579414]
TDTTB(Temporal Dilated Video Transformer)は、映像表現を効率的に抽出し、時間的冗長性の負の効果を効果的に緩和する。
ビデオオブジェクト検出のためのImageNet VIDと、ビデオセグメンテーションインスタンスのためのYouTube VISの2つの異なる高密度ビデオベンチマークで実験を行う。
論文 参考訳(メタデータ) (2024-02-14T15:41:07Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - VDT: General-purpose Video Diffusion Transformers via Mask Modeling [62.71878864360634]
Video Diffusion Transformer (VDT)は、拡散に基づくビデオ生成におけるトランスフォーマーの利用の先駆者である。
本稿では,多様な映像生成シナリオに対応するために,モデルとシームレスに統合された空間時空間マスクモデリング機構を提案する。
論文 参考訳(メタデータ) (2023-05-22T17:59:45Z) - LaMD: Latent Motion Diffusion for Video Generation [69.4111397077229]
LaMDフレームワークは、モーション分解されたビデオオートエンコーダと拡散に基づくモーションジェネレータで構成される。
その結果、LaMDはダイナミックスから高度に制御可能な動きに至るまで、幅広い動きを持つ高品質なビデオを生成することがわかった。
論文 参考訳(メタデータ) (2023-04-23T10:32:32Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。