論文の概要: DragNUWA: Fine-grained Control in Video Generation by Integrating Text,
Image, and Trajectory
- arxiv url: http://arxiv.org/abs/2308.08089v1
- Date: Wed, 16 Aug 2023 01:43:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 15:14:27.124204
- Title: DragNUWA: Fine-grained Control in Video Generation by Integrating Text,
Image, and Trajectory
- Title(参考訳): DragNUWA:テキスト・画像・軌道の統合による映像生成におけるきめ細かい制御
- Authors: Shengming Yin, Chenfei Wu, Jian Liang, Jie Shi, Houqiang Li, Gong
Ming, Nan Duan
- Abstract要約: DragNUWAは、オープンドメイン拡散に基づくビデオ生成モデルである。
意味的、空間的、時間的視点からビデオ内容のきめ細かい制御を提供する。
本実験はDragNUWAの有効性を検証し,ビデオ生成における微粒化制御における優れた性能を示した。
- 参考スコア(独自算出の注目度): 126.4597063554213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Controllable video generation has gained significant attention in recent
years. However, two main limitations persist: Firstly, most existing works
focus on either text, image, or trajectory-based control, leading to an
inability to achieve fine-grained control in videos. Secondly, trajectory
control research is still in its early stages, with most experiments being
conducted on simple datasets like Human3.6M. This constraint limits the models'
capability to process open-domain images and effectively handle complex curved
trajectories. In this paper, we propose DragNUWA, an open-domain
diffusion-based video generation model. To tackle the issue of insufficient
control granularity in existing works, we simultaneously introduce text, image,
and trajectory information to provide fine-grained control over video content
from semantic, spatial, and temporal perspectives. To resolve the problem of
limited open-domain trajectory control in current research, We propose
trajectory modeling with three aspects: a Trajectory Sampler (TS) to enable
open-domain control of arbitrary trajectories, a Multiscale Fusion (MF) to
control trajectories in different granularities, and an Adaptive Training (AT)
strategy to generate consistent videos following trajectories. Our experiments
validate the effectiveness of DragNUWA, demonstrating its superior performance
in fine-grained control in video generation. The homepage link is
\url{https://www.microsoft.com/en-us/research/project/dragnuwa/}
- Abstract(参考訳): 近年、制御可能なビデオ生成が注目されている。
第一に、既存の作品のほとんどはテキスト、画像、または軌跡に基づく制御に焦点を当てており、ビデオのきめ細かい制御ができない。
第二に、軌道制御の研究はまだ初期段階にあり、ほとんどの実験はHuman3.6Mのような単純なデータセットで行われている。
この制約は、モデルがオープンドメインの画像を処理し、複雑な曲線の軌跡を効果的に扱う能力を制限する。
本稿では,オープンドメイン拡散に基づくビデオ生成モデルであるDragNUWAを提案する。
既存の作品における制御粒度不足の問題に取り組むため,テキスト,画像,軌道情報を同時に導入し,意味的,空間的,時間的視点から映像コンテンツのきめ細かい制御を行う。
本研究における限定的なオープンドメイン軌道制御の課題を解決するために,任意の軌道のオープンドメイン制御を可能にする軌道サンプリング (ts) と,異なる粒度の軌道を制御するマルチスケール融合 (mf) と,軌道追従した一貫したビデオを生成する適応訓練 (at) という3つの側面を持つ軌道モデリングを提案する。
本実験はDragNUWAの有効性を検証し,ビデオ生成における微粒化制御における優れた性能を示した。
ホームページリンクは \url{https://www.microsoft.com/en-us/research/project/dragnuwa/} である。
関連論文リスト
- DiVE: DiT-based Video Generation with Enhanced Control [23.63288169762629]
時間的・多視点的な一貫したビデオを生成するために特別に設計された第1のDiTベースのフレームワークを提案する。
具体的には、パラメータフリーな空間ビューインフレードアテンション機構を利用して、クロスビューの一貫性を保証する。
論文 参考訳(メタデータ) (2024-09-03T04:29:59Z) - TrackGo: A Flexible and Efficient Method for Controllable Video Generation [33.62804888664707]
条件付きビデオ生成に自由形マスクと矢印を利用する新しい手法であるTrackGoを紹介する。
また、時間的自己注意層にシームレスに統合されるように設計された効率的で軽量なアダプタである、制御実装のためのTrackAdapterを提案する。
実験の結果,新しい手法はTrackAdapterによって強化され,FVD,FID,MCスコアなどの重要な指標における最先端のパフォーマンスが得られた。
論文 参考訳(メタデータ) (2024-08-21T09:42:04Z) - TraDiffusion: Trajectory-Based Training-Free Image Generation [85.39724878576584]
そこで我々は,TraDiffusion(トラディフュージョン)と呼ばれる,訓練のないトラジェクトリベースの制御可能なT2Iアプローチを提案する。
この手法により、マウスの軌跡を通した画像生成を無駄にガイドすることができる。
論文 参考訳(メタデータ) (2024-08-19T07:01:43Z) - VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control [74.5434726968562]
Plucker座標に基づく制御ネットライクなコンディショニング機構を用いた3次元カメラ制御のためのトランスフォーマー映像を試作する。
我々の研究は、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初のものである。
論文 参考訳(メタデータ) (2024-07-17T17:59:05Z) - PerLDiff: Controllable Street View Synthesis Using Perspective-Layout Diffusion Models [55.080748327139176]
本稿では、3次元幾何学的情報を完全に活用した効果的なストリートビュー画像生成手法であるPerLDiffを紹介する。
この結果から,我々のPerLDiffはNuScenesおよびKITTIデータセットの生成精度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-07-08T16:46:47Z) - FreeTraj: Tuning-Free Trajectory Control in Video Diffusion Models [41.006754386910686]
拡散モデル自体が、トレーニングを必要とせず、生成したコンテンツの適切な制御を可能にしている、と我々は主張する。
ノイズ構成とアテンション計算の両方に関するガイダンスを付与することにより、トラジェクトリ制御可能なビデオ生成を実現するためのチューニング不要のフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-24T17:59:56Z) - Ctrl-V: Higher Fidelity Video Generation with Bounding-Box Controlled Object Motion [8.068194154084967]
本稿では,現実的な映像合成において,物体の動きを正確に制御する方法を提案する。
これを実現するために,バウンディングボックスを用いてオブジェクトの動きを制御し,この制御を画素空間内の2Dまたは3Dボックスのレンダリングに拡張する。
我々の手法であるCtrl-Vは、修正および微調整された安定ビデオ拡散(SVD)モデルを利用して、軌跡生成と映像生成の両方を解決する。
論文 参考訳(メタデータ) (2024-06-09T03:44:35Z) - Ctrl-Adapter: An Efficient and Versatile Framework for Adapting Diverse Controls to Any Diffusion Model [62.51232333352754]
Ctrl-Adapterは、事前訓練されたコントロールネットの適応を通じて、任意の画像/ビデオ拡散モデルに多様なコントロールを追加する。
6つの多様なU-Net/DiTベースの画像/ビデオ拡散モデルにより、Ctrl-AdapterはCOCO上の事前訓練されたコントロールネットのパフォーマンスと一致する。
論文 参考訳(メタデータ) (2024-04-15T17:45:36Z) - TrailBlazer: Trajectory Control for Diffusion-Based Video Generation [11.655256653219604]
テキスト・ツー・ビデオ(T2V)生成における制御性はしばしば課題である。
我々はキーフレーミングの概念を導入し、対象の軌跡と全体の外観を移動境界ボックスと対応するプロンプトの両方でガイドできるようにする。
箱の大きさが大きくなるにつれて、視界や仮想カメラへの移動といった新たな効果が生まれます。
論文 参考訳(メタデータ) (2023-12-31T10:51:52Z) - Fine-grained Controllable Video Generation via Object Appearance and
Context [74.23066823064575]
細粒度制御可能なビデオ生成法(FACTOR)を提案する。
FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。
本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
論文 参考訳(メタデータ) (2023-12-05T17:47:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。