論文の概要: DragNUWA: Fine-grained Control in Video Generation by Integrating Text,
Image, and Trajectory
- arxiv url: http://arxiv.org/abs/2308.08089v1
- Date: Wed, 16 Aug 2023 01:43:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 15:14:27.124204
- Title: DragNUWA: Fine-grained Control in Video Generation by Integrating Text,
Image, and Trajectory
- Title(参考訳): DragNUWA:テキスト・画像・軌道の統合による映像生成におけるきめ細かい制御
- Authors: Shengming Yin, Chenfei Wu, Jian Liang, Jie Shi, Houqiang Li, Gong
Ming, Nan Duan
- Abstract要約: DragNUWAは、オープンドメイン拡散に基づくビデオ生成モデルである。
意味的、空間的、時間的視点からビデオ内容のきめ細かい制御を提供する。
本実験はDragNUWAの有効性を検証し,ビデオ生成における微粒化制御における優れた性能を示した。
- 参考スコア(独自算出の注目度): 126.4597063554213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Controllable video generation has gained significant attention in recent
years. However, two main limitations persist: Firstly, most existing works
focus on either text, image, or trajectory-based control, leading to an
inability to achieve fine-grained control in videos. Secondly, trajectory
control research is still in its early stages, with most experiments being
conducted on simple datasets like Human3.6M. This constraint limits the models'
capability to process open-domain images and effectively handle complex curved
trajectories. In this paper, we propose DragNUWA, an open-domain
diffusion-based video generation model. To tackle the issue of insufficient
control granularity in existing works, we simultaneously introduce text, image,
and trajectory information to provide fine-grained control over video content
from semantic, spatial, and temporal perspectives. To resolve the problem of
limited open-domain trajectory control in current research, We propose
trajectory modeling with three aspects: a Trajectory Sampler (TS) to enable
open-domain control of arbitrary trajectories, a Multiscale Fusion (MF) to
control trajectories in different granularities, and an Adaptive Training (AT)
strategy to generate consistent videos following trajectories. Our experiments
validate the effectiveness of DragNUWA, demonstrating its superior performance
in fine-grained control in video generation. The homepage link is
\url{https://www.microsoft.com/en-us/research/project/dragnuwa/}
- Abstract(参考訳): 近年、制御可能なビデオ生成が注目されている。
第一に、既存の作品のほとんどはテキスト、画像、または軌跡に基づく制御に焦点を当てており、ビデオのきめ細かい制御ができない。
第二に、軌道制御の研究はまだ初期段階にあり、ほとんどの実験はHuman3.6Mのような単純なデータセットで行われている。
この制約は、モデルがオープンドメインの画像を処理し、複雑な曲線の軌跡を効果的に扱う能力を制限する。
本稿では,オープンドメイン拡散に基づくビデオ生成モデルであるDragNUWAを提案する。
既存の作品における制御粒度不足の問題に取り組むため,テキスト,画像,軌道情報を同時に導入し,意味的,空間的,時間的視点から映像コンテンツのきめ細かい制御を行う。
本研究における限定的なオープンドメイン軌道制御の課題を解決するために,任意の軌道のオープンドメイン制御を可能にする軌道サンプリング (ts) と,異なる粒度の軌道を制御するマルチスケール融合 (mf) と,軌道追従した一貫したビデオを生成する適応訓練 (at) という3つの側面を持つ軌道モデリングを提案する。
本実験はDragNUWAの有効性を検証し,ビデオ生成における微粒化制御における優れた性能を示した。
ホームページリンクは \url{https://www.microsoft.com/en-us/research/project/dragnuwa/} である。
関連論文リスト
- TrailBlazer: Trajectory Control for Diffusion-Based Video Generation [13.099340448183803]
テキスト・ツー・ビデオ(T2V)生成における制御性はしばしば課題である。
我々はキーフレーミングの概念を導入し、対象の軌跡と全体の外観を移動境界ボックスと対応するプロンプトの両方でガイドできるようにする。
箱の大きさが大きくなるにつれて、視界や仮想カメラへの移動といった新たな効果が生まれます。
論文 参考訳(メタデータ) (2023-12-31T10:51:52Z) - Fine-grained Controllable Video Generation via Object Appearance and
Context [74.23066823064575]
細粒度制御可能なビデオ生成法(FACTOR)を提案する。
FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。
本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
論文 参考訳(メタデータ) (2023-12-05T17:47:33Z) - TrackDiffusion: Multi-object Tracking Data Generation via Diffusion
Models [81.81382481184889]
TrackDiffusionは、トラックレットから連続的なビデオシーケンスを生成するように設計された新しいアーキテクチャである。
生成したビデオシーケンスを,MOT(Multi-object Tracking)システムのトレーニングに活用できることを初めて実証した。
提案手法はTrackAPの8.7とTrackAPの11.8をYTVISデータセットの_50$で改善する。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - MVControl: Adding Conditional Control to Multi-view Diffusion for
Controllable Text-to-3D Generation [10.250715657201363]
既存のトレーニング済みマルチビュー2D拡散モデルを強化するニューラルネットワークアーキテクチャであるMVControlを紹介する。
提案手法により,制御可能なマルチビュー画像と3Dコンテンツの生成が可能となる。
論文 参考訳(メタデータ) (2023-11-24T14:07:53Z) - FODVid: Flow-guided Object Discovery in Videos [12.792602427704395]
我々は、個々の複雑さに過度に適合しないように、一般化可能なソリューションを構築することに注力する。
教師なしの環境でビデオオブジェクト(VOS)を解決するために,セグメント出力の導出に基づく新しいパイプライン(FODVid)を提案する。
論文 参考訳(メタデータ) (2023-07-10T07:55:42Z) - Control-A-Video: Controllable Text-to-Video Generation with Diffusion
Models [52.512109160994655]
本稿では,制御可能なテキスト・ツー・ビデオ(T2V)拡散モデルであるコントロール・ア・ビデオについて述べる。
オブジェクトの一貫性を改善するために、Control-A-Videoは動画生成にモーション・プレッションとコンテント・プレッションを統合する。
本モデルでは, 資源効率の収束を実現し, きめ細かい制御で一貫したコヒーレントな映像を生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z) - Trace and Pace: Controllable Pedestrian Animation via Guided Trajectory
Diffusion [83.88829943619656]
本研究では,現実的な歩行者軌跡生成手法と,ユーザ定義目標を達成するために制御可能なフルボディアニメーションを提案する。
我々のガイド付き拡散モデルでは,対象とする経路,速度,特定社会集団による軌道の制約が可能である。
本稿では,アニメーションコントローラのRLトレーニング中に学習した値関数を用いて,拡散を誘導し,特定のシナリオに適した軌道を生成することを提案する。
論文 参考訳(メタデータ) (2023-04-04T15:46:42Z) - End-to-end Deep Object Tracking with Circular Loss Function for Rotated
Bounding Box [68.8204255655161]
Transformer Multi-Head Attentionアーキテクチャに基づく新しいエンドツーエンドのディープラーニング手法を紹介します。
また,境界ボックスの重なりと向きを考慮に入れた新しいタイプの損失関数を提案する。
論文 参考訳(メタデータ) (2020-12-17T17:29:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。