Fugu-MT 論文翻訳(概要): Tora: Trajectory-oriented Diffusion Transformer for Video Generation

論文の概要: Tora: Trajectory-oriented Diffusion Transformer for Video Generation

arxiv url: http://arxiv.org/abs/2407.21705v1
Date: Wed, 31 Jul 2024 15:53:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-01 12:17:56.514328
Title: Tora: Trajectory-oriented Diffusion Transformer for Video Generation
Title（参考訳）: Tora:ビデオ生成のための軌道指向拡散変換器
Authors: Zhenghao Zhang, Junchao Liao, Menghao Li, Long Qin, Weizhi Wang,
Abstract要約: Toraは、ビデオ生成のためにテキスト、視覚、軌跡条件を同時に統合する最初のトラジェクトリ指向のDiTフレームワークである。 Toraは、任意の軌道を階層的な時空運動パッチに3Dビデオ圧縮ネットワークでエンコードする。我々の設計はDiTのスケーラビリティとシームレスに一致し、様々な期間、アスペクト比、解像度で映像コンテンツのダイナミクスを正確に制御できる。
参考スコア（独自算出の注目度）: 10.42091119307554
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advancements in Diffusion Transformer (DiT) have demonstrated remarkable proficiency in producing high-quality video content. Nonetheless, the potential of transformer-based diffusion models for effectively generating videos with controllable motion remains an area of limited exploration. This paper introduces Tora, the first trajectory-oriented DiT framework that integrates textual, visual, and trajectory conditions concurrently for video generation. Specifically, Tora consists of a Trajectory Extractor~(TE), a Spatial-Temporal DiT, and a Motion-guidance Fuser~(MGF). The TE encodes arbitrary trajectories into hierarchical spacetime motion patches with a 3D video compression network. The MGF integrates the motion patches into the DiT blocks to generate consistent videos following trajectories. Our design aligns seamlessly with DiT's scalability, allowing precise control of video content's dynamics with diverse durations, aspect ratios, and resolutions. Extensive experiments demonstrate Tora's excellence in achieving high motion fidelity, while also meticulously simulating the movement of the physical world. Page can be found at https://ali-videoai.github.io/tora_video.
Abstract（参考訳）: 拡散変換器(DiT)の最近の進歩は,高品質な映像コンテンツの製作に顕著な熟練性を示している。それでも、制御可能なモーションで映像を効果的に生成するトランスフォーマーベースの拡散モデルの可能性は、探索の限られた領域に留まっている。本稿では,ビデオ生成のためにテキスト,視覚,軌跡条件を同時に統合した最初のトラジェクトリ指向のDiTフレームワークであるToraを紹介する。具体的には、トラジェクティブ・エクストラクタ〜(TE)、空間的テンポラル・ディT、モーションガイダンス・フーザー〜(MGF)から構成される。 TEは、任意の軌道を階層的な時空運動パッチに3Dビデオ圧縮ネットワークで符号化する。 MGFは、モーションパッチをDiTブロックに統合し、トラジェクトリに続く一貫したビデオを生成する。我々の設計はDiTのスケーラビリティとシームレスに一致し、様々な期間、アスペクト比、解像度で映像コンテンツのダイナミクスを正確に制御できる。広範囲にわたる実験は、Toraが高い動きの忠実さを達成するのに優れており、物理世界の動きを巧みにシミュレートしていることを示している。 Pageはhttps://ali-videoai.github.io/tora_videoで見ることができる。

関連論文リスト

Wan-Move: Motion-controllable Video Generation via Latent Trajectory Guidance [107.25252623824296]
Wan-Moveは、ビデオ生成モデルにモーションコントロールを提供するフレームワークである。私たちの中核となる考え方は、動画を誘導するためのモーションアウェアを元の状態にすることです。 Wan-Moveは5秒、480pの動画を制作し、Kling 1.5の商用モーションブラシに対抗している。
論文参考訳（メタデータ） (2025-12-09T16:13:55Z)
Gaussian See, Gaussian Do: Semantic 3D Motion Transfer from Multiview Video [15.994811723477973]
マルチビュー映像からの3D動画のセマンティック・モーション・トランスファーのための新しい手法を提案する。条件インバージョンにより映像から動き埋め込みを抽出し,レンダリングフレームに適用し,結果の動画を用いて動的3次元ガウススプラッティング再構成を監督する。セマンティックな3次元動き伝達のための最初のベンチマークを確立し, 適応ベースラインよりも優れた動きの忠実度と構造的整合性を示す。
論文参考訳（メタデータ） (2025-11-18T19:02:50Z)
DiTraj: training-free trajectory control for video diffusion transformer [34.05715460730871]
軌道制御は、制御可能なビデオ生成におけるユーザフレンドリなタスクを表す。提案するDiTrajは,DiTに適したテキスト・ビデオ生成におけるトラジェクトリ制御のためのトレーニングフリーフレームワークである。提案手法は,映像品質とトラジェクトリ制御性の両方において,従来の手法よりも優れていた。
論文参考訳（メタデータ） (2025-09-26T03:53:31Z)
Versatile Transition Generation with Image-to-Video Diffusion [89.67070538399457]
本稿では,スムーズで高忠実でセマンティックにコヒーレントな動画遷移を生成できるVersatile Transitionビデオ生成フレームワークを提案する。我々は,VTGが4つのタスクすべてにおいて,優れた遷移性能を実現することを示す。
論文参考訳（メタデータ） (2025-08-03T10:03:56Z)
T-GVC: Trajectory-Guided Generative Video Coding at Ultra-Low Bitrates [29.598249500198904]
Trajectory-Guided Generative Video Coding (dubed TGVC)は、低レベルなモーショントラッキングと高レベルなセマンティック理解を橋渡しする。本フレームワークは,既存のテキスト誘導方式よりも高精度な動作制御を実現する。
論文参考訳（メタデータ） (2025-07-10T11:01:58Z)
EfficientMT: Efficient Temporal Adaptation for Motion Transfer in Text-to-Video Diffusion Models [73.96414072072048]
既存の動き伝達法は、ガイド生成のための参照ビデオの動作表現を探索した。本稿では,ビデオモーション転送のための新しい,効率的なエンドツーエンドフレームワークであるEfficientMTを提案する。我々の実験は, フレキシブルな動作制御性を維持しつつ, 既存の手法よりも効率が良いことを示した。
論文参考訳（メタデータ） (2025-03-25T05:51:14Z)
Decouple and Track: Benchmarking and Improving Video Diffusion Transformers for Motion Transfer [41.26164688712492]
Diffusion Transformer (DiT) モデルは3Dフルアテンションを使用し、時間的・空間的な情報を明示的に分離しない。提案手法では, 時間次元に沿って円滑なDiT機能を実現するために, 単純で効果的な時間的カーネルを導入する。また,動作の整合性を高めるために,潜在特徴空間における高密度軌跡に沿った明示的な監督も導入する。
論文参考訳（メタデータ） (2025-03-21T17:52:05Z)
MagicMotion: Controllable Video Generation with Dense-to-Sparse Trajectory Guidance [58.69427663452654]
トラジェクティブ制御可能なビデオ生成のための画像からビデオ生成フレームワークであるMagicMotionを紹介する。 MagicMotionは、オブジェクトの一貫性と視覚的品質を維持しながら、定義された軌道に沿ってオブジェクトを認識できる。我々は、大規模なトラジェクトリ制御ビデオデータセットであるMagicDataと、アノテーションとフィルタリングのための自動パイプラインを提示する。
論文参考訳（メタデータ） (2025-03-20T17:59:42Z)
Mojito: Motion Trajectory and Intensity Control for Video Generation [79.85687620761186]
本稿では,テキスト・ビデオ生成のための運動軌跡と強度制御の両方を組み込んだ拡散モデルであるMojitoを紹介する。実験は, 高精度な軌道制御と強度制御を高い計算効率で実現する上で, モジトの有効性を実証する。
論文参考訳（メタデータ） (2024-12-12T05:26:43Z)
CPA: Camera-pose-awareness Diffusion Transformer for Video Generation [15.512186399114999]
CPAはテキスト・ビデオ生成のアプローチであり、テキスト・ビジュアル・空間的条件を統合している。トラジェクトリの整合性とオブジェクトの整合性において最適な性能を保ちながら、長いビデオ生成のためのLDM法よりも優れる。
論文参考訳（メタデータ） (2024-12-02T12:10:00Z)
Generative Human Video Compression with Multi-granularity Temporal Trajectory Factorization [13.341123726068652]
本稿では,人為的ビデオ圧縮のための多粒度時間軌道因子化フレームワークを提案する。実験結果から,提案手法は最新の生成モデルと最先端のビデオ符号化標準であるVersatile Video Codingより優れていた。
論文参考訳（メタデータ） (2024-10-14T05:34:32Z)
WcDT: World-centric Diffusion Transformer for Traffic Scene Generation [13.616763172038846]
本稿では,拡散確率モデルと変圧器の相補的強度を利用して,自律走行軌道生成のための新しい手法を提案する。提案するフレームワークは,WcDT(World-Centric Diffusion Transformer)と呼ばれ,軌道生成過程全体を最適化する。提案手法は,現実的かつ多様な軌道を生成する上で,優れた性能を示すことを示す。
論文参考訳（メタデータ） (2024-04-02T16:28:41Z)
TC4D: Trajectory-Conditioned Text-to-4D Generation [94.90700997568158]
提案するTC4D: trajectory-conditioned text-to-4D 生成は,グローバルおよびローカルなコンポーネントへの移動を要因とする。我々は,テキスト・ビデオ・モデルから,グローバルな軌跡に適合する局所的な変形を観察する。提案手法は,任意の軌跡に沿ってアニメーションされたシーンの合成,構成シーンの生成,および生成した動きのリアリズムと量に対する大幅な改善を可能にする。
論文参考訳（メタデータ） (2024-03-26T17:55:11Z)
Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。 SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文参考訳（メタデータ） (2024-03-22T14:47:18Z)
VMC: Video Motion Customization using Temporal Attention Adaption for Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文参考訳（メタデータ） (2023-12-01T06:50:11Z)
VDT: General-purpose Video Diffusion Transformers via Mask Modeling [62.71878864360634]
Video Diffusion Transformer (VDT)は、拡散に基づくビデオ生成におけるトランスフォーマーの利用の先駆者である。本稿では,多様な映像生成シナリオに対応するために,モデルとシームレスに統合された空間時空間マスクモデリング機構を提案する。
論文参考訳（メタデータ） (2023-05-22T17:59:45Z)
LaMD: Latent Motion Diffusion for Video Generation [69.4111397077229]
LaMDフレームワークは、モーション分解されたビデオオートエンコーダと拡散に基づくモーションジェネレータで構成される。その結果、LaMDはダイナミックスから高度に制御可能な動きに至るまで、幅広い動きを持つ高品質なビデオを生成することがわかった。
論文参考訳（メタデータ） (2023-04-23T10:32:32Z)
TransMOT: Spatial-Temporal Graph Transformer for Multiple Object Tracking [74.82415271960315]
映像内の物体間の空間的・時間的相互作用を効率的にモデル化するソリューションであるTransMOTを提案する。 TransMOTは従来のTransformerよりも計算効率が高いだけでなく、トラッキング精度も向上している。提案手法は、MOT15、MOT16、MOT17、MOT20を含む複数のベンチマークデータセット上で評価される。
論文参考訳（メタデータ） (2021-04-01T01:49:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。