論文の概要: DiTraj: training-free trajectory control for video diffusion transformer
- arxiv url: http://arxiv.org/abs/2509.21839v1
- Date: Fri, 26 Sep 2025 03:53:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.166022
- Title: DiTraj: training-free trajectory control for video diffusion transformer
- Title(参考訳): DiTraj:ビデオ拡散変圧器の訓練不要軌道制御
- Authors: Cheng Lei, Jiayu Zhang, Yue Ma, Xinyu Wang, Long Chen, Liang Tang, Yiqiang Yan, Fei Su, Zhicheng Zhao,
- Abstract要約: 軌道制御は、制御可能なビデオ生成におけるユーザフレンドリなタスクを表す。
提案するDiTrajは,DiTに適したテキスト・ビデオ生成におけるトラジェクトリ制御のためのトレーニングフリーフレームワークである。
提案手法は,映像品質とトラジェクトリ制御性の両方において,従来の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 34.05715460730871
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Transformers (DiT)-based video generation models with 3D full attention exhibit strong generative capabilities. Trajectory control represents a user-friendly task in the field of controllable video generation. However, existing methods either require substantial training resources or are specifically designed for U-Net, do not take advantage of the superior performance of DiT. To address these issues, we propose DiTraj, a simple but effective training-free framework for trajectory control in text-to-video generation, tailored for DiT. Specifically, first, to inject the object's trajectory, we propose foreground-background separation guidance: we use the Large Language Model (LLM) to convert user-provided prompts into foreground and background prompts, which respectively guide the generation of foreground and background regions in the video. Then, we analyze 3D full attention and explore the tight correlation between inter-token attention scores and position embedding. Based on this, we propose inter-frame Spatial-Temporal Decoupled 3D-RoPE (STD-RoPE). By modifying only foreground tokens' position embedding, STD-RoPE eliminates their cross-frame spatial discrepancies, strengthening cross-frame attention among them and thus enhancing trajectory control. Additionally, we achieve 3D-aware trajectory control by regulating the density of position embedding. Extensive experiments demonstrate that our method outperforms previous methods in both video quality and trajectory controllability.
- Abstract(参考訳): 拡散変換器(DiT)を用いた3Dフルアテンション映像生成モデルは、強力な生成能力を示す。
軌道制御は、制御可能なビデオ生成の分野におけるユーザフレンドリなタスクを表す。
しかし、既存の手法は訓練資源を必要とするか、U-Net用に特別に設計されているかのいずれかであり、DiTの優れた性能を生かしていない。
これらの問題に対処するために,テキスト・ビデオ生成におけるトラジェクトリ制御のための,シンプルで効果的なトレーニング不要なフレームワークであるDiTrajを提案する。
具体的には、まず、オブジェクトの軌跡を注入するために、大言語モデル(LLM)を用いて、ユーザが提供するプロンプトを前景と背景のプロンプトに変換し、ビデオ中の前景と背景領域の生成を誘導する、前景と背景の分離ガイダンスを提案する。
そして,3Dフルアテンションを解析し,注目点間のスコアと位置埋め込みの密接な相関について検討する。
そこで本研究では,フレーム間空間デカップリング3D-RoPE(STD-RoPE)を提案する。
STD-RoPEは、フォアグラウンドトークンの位置のみを埋め込むことによって、フレーム間の空間的不一致を解消し、フレーム間の注意力を強化し、トラジェクトリ制御を強化する。
さらに,位置埋め込みの密度を調節して3次元軌道制御を実現する。
本手法は,映像品質と軌道制御性の両方において,従来の手法よりも優れていた。
関連論文リスト
- Zero-shot 3D-Aware Trajectory-Guided image-to-video generation via Test-Time Training [27.251232052868033]
Trajectory-Guided Image-to-Video (I2V) 生成は、ユーザが指定した動画を合成することを目的としている。
Zo3Tは軌道制御されたI2V生成における3次元リアリズムと運動精度を著しく向上させる。
論文 参考訳(メタデータ) (2025-09-08T14:21:45Z) - DriveGEN: Generalized and Robust 3D Detection in Driving via Controllable Text-to-Image Diffusion Generation [49.32104127246474]
DriveGENは、トレーニング不要のテキストから画像への拡散生成である。
様々なアウト・オブ・ディストリビューション世代にまたがる正確な3D形状のオブジェクトを一貫して保存する。
論文 参考訳(メタデータ) (2025-03-14T06:35:38Z) - 3DTrajMaster: Mastering 3D Trajectory for Multi-Entity Motion in Video Generation [83.98251722144195]
制御可能なビデオ生成における従来の方法は、主に物体の動きを操作するために2D制御信号を利用する。
本稿では3次元空間におけるマルチエンタリティダイナミクスを制御する頑健なコントローラである3DTrajMasterを紹介する。
3DTrajMasterは,多心性3D動作を制御するための精度と一般化の両面において,新しい最先端技術を設定する。
論文 参考訳(メタデータ) (2024-12-10T18:55:13Z) - T-3DGS: Removing Transient Objects for 3D Scene Reconstruction [83.05271859398779]
映像シーケンスにおける過渡的オブジェクトは、3Dシーン再構成の品質を著しく低下させる可能性がある。
我々は,ガウススプラッティングを用いた3次元再構成において,過渡的障害を頑健に除去する新しいフレームワークT-3DGSを提案する。
論文 参考訳(メタデータ) (2024-11-29T07:45:24Z) - DragNUWA: Fine-grained Control in Video Generation by Integrating Text,
Image, and Trajectory [126.4597063554213]
DragNUWAは、オープンドメイン拡散に基づくビデオ生成モデルである。
意味的、空間的、時間的視点からビデオ内容のきめ細かい制御を提供する。
本実験はDragNUWAの有効性を検証し,ビデオ生成における微粒化制御における優れた性能を示した。
論文 参考訳(メタデータ) (2023-08-16T01:43:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。