Fugu-MT 論文翻訳(概要): DragNUWA: Fine-grained Control in Video Generation by Integrating Text, Image, and Trajectory

論文の概要: DragNUWA: Fine-grained Control in Video Generation by Integrating Text, Image, and Trajectory

arxiv url: http://arxiv.org/abs/2308.08089v1
Date: Wed, 16 Aug 2023 01:43:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-17 15:14:27.124204
Title: DragNUWA: Fine-grained Control in Video Generation by Integrating Text, Image, and Trajectory
Title（参考訳）: DragNUWA:テキスト・画像・軌道の統合による映像生成におけるきめ細かい制御
Authors: Shengming Yin, Chenfei Wu, Jian Liang, Jie Shi, Houqiang Li, Gong Ming, Nan Duan
Abstract要約: DragNUWAは、オープンドメイン拡散に基づくビデオ生成モデルである。意味的、空間的、時間的視点からビデオ内容のきめ細かい制御を提供する。本実験はDragNUWAの有効性を検証し,ビデオ生成における微粒化制御における優れた性能を示した。
参考スコア（独自算出の注目度）: 126.4597063554213
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Controllable video generation has gained significant attention in recent years. However, two main limitations persist: Firstly, most existing works focus on either text, image, or trajectory-based control, leading to an inability to achieve fine-grained control in videos. Secondly, trajectory control research is still in its early stages, with most experiments being conducted on simple datasets like Human3.6M. This constraint limits the models' capability to process open-domain images and effectively handle complex curved trajectories. In this paper, we propose DragNUWA, an open-domain diffusion-based video generation model. To tackle the issue of insufficient control granularity in existing works, we simultaneously introduce text, image, and trajectory information to provide fine-grained control over video content from semantic, spatial, and temporal perspectives. To resolve the problem of limited open-domain trajectory control in current research, We propose trajectory modeling with three aspects: a Trajectory Sampler (TS) to enable open-domain control of arbitrary trajectories, a Multiscale Fusion (MF) to control trajectories in different granularities, and an Adaptive Training (AT) strategy to generate consistent videos following trajectories. Our experiments validate the effectiveness of DragNUWA, demonstrating its superior performance in fine-grained control in video generation. The homepage link is \url{https://www.microsoft.com/en-us/research/project/dragnuwa/}
Abstract（参考訳）: 近年、制御可能なビデオ生成が注目されている。第一に、既存の作品のほとんどはテキスト、画像、または軌跡に基づく制御に焦点を当てており、ビデオのきめ細かい制御ができない。第二に、軌道制御の研究はまだ初期段階にあり、ほとんどの実験はHuman3.6Mのような単純なデータセットで行われている。この制約は、モデルがオープンドメインの画像を処理し、複雑な曲線の軌跡を効果的に扱う能力を制限する。本稿では,オープンドメイン拡散に基づくビデオ生成モデルであるDragNUWAを提案する。既存の作品における制御粒度不足の問題に取り組むため,テキスト,画像,軌道情報を同時に導入し,意味的,空間的,時間的視点から映像コンテンツのきめ細かい制御を行う。本研究における限定的なオープンドメイン軌道制御の課題を解決するために,任意の軌道のオープンドメイン制御を可能にする軌道サンプリング (ts) と,異なる粒度の軌道を制御するマルチスケール融合 (mf) と,軌道追従した一貫したビデオを生成する適応訓練 (at) という3つの側面を持つ軌道モデリングを提案する。本実験はDragNUWAの有効性を検証し,ビデオ生成における微粒化制御における優れた性能を示した。ホームページリンクは \url{https://www.microsoft.com/en-us/research/project/dragnuwa/} である。

関連論文リスト

MagicMotion: Controllable Video Generation with Dense-to-Sparse Trajectory Guidance [46.92591065065018]
トラジェクティブ制御可能なビデオ生成のための画像からビデオ生成フレームワークであるMagicMotionを紹介する。 MagicMotionは、オブジェクトの一貫性と視覚的品質を維持しながら、定義された軌道に沿ってオブジェクトを認識できる。我々は、大規模なトラジェクトリ制御ビデオデータセットであるMagicDataと、アノテーションとフィルタリングのための自動パイプラインを提示する。
論文参考訳（メタデータ） (2025-03-20T17:59:42Z)
DiVE: DiT-based Video Generation with Enhanced Control [23.63288169762629]
時間的・多視点的な一貫したビデオを生成するために特別に設計された第1のDiTベースのフレームワークを提案する。具体的には、パラメータフリーな空間ビューインフレードアテンション機構を利用して、クロスビューの一貫性を保証する。
論文参考訳（メタデータ） (2024-09-03T04:29:59Z)
TrackGo: A Flexible and Efficient Method for Controllable Video Generation [32.906496577618924]
条件付きビデオ生成のための新しいアプローチであるTrackGoを紹介する。 TrackGoは、ビデオコンテンツを操作するための柔軟で正確なメカニズムを提供する。また,制御実装のためのTrackAdapterを提案する。
論文参考訳（メタデータ） (2024-08-21T09:42:04Z)
TraDiffusion: Trajectory-Based Training-Free Image Generation [85.39724878576584]
そこで我々は,TraDiffusion(トラディフュージョン)と呼ばれる,訓練のないトラジェクトリベースの制御可能なT2Iアプローチを提案する。この手法により、マウスの軌跡を通した画像生成を無駄にガイドすることができる。
論文参考訳（メタデータ） (2024-08-19T07:01:43Z)
VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control [74.5434726968562]
Plucker座標に基づく制御ネットライクなコンディショニング機構を用いた3次元カメラ制御のためのトランスフォーマー映像を試作する。我々の研究は、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初のものである。
論文参考訳（メタデータ） (2024-07-17T17:59:05Z)
PerlDiff: Controllable Street View Synthesis Using Perspective-Layout Diffusion Models [55.080748327139176]
PerlDiffは、3次元幾何学情報を完全に活用した効果的なストリートビュー画像生成手法である。この結果から,我々のPerlDiffはNuScenesおよびKITTIデータセットの生成精度を著しく向上させることがわかった。
論文参考訳（メタデータ） (2024-07-08T16:46:47Z)
FreeTraj: Tuning-Free Trajectory Control in Video Diffusion Models [41.006754386910686]
拡散モデル自体が、トレーニングを必要とせず、生成したコンテンツの適切な制御を可能にしている、と我々は主張する。ノイズ構成とアテンション計算の両方に関するガイダンスを付与することにより、トラジェクトリ制御可能なビデオ生成を実現するためのチューニング不要のフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-24T17:59:56Z)
Ctrl-V: Higher Fidelity Video Generation with Bounding-Box Controlled Object Motion [8.068194154084967]
本稿では,現実的な映像合成において,物体の動きを正確に制御する方法を提案する。これを実現するために,バウンディングボックスを用いてオブジェクトの動きを制御し,この制御を画素空間内の2Dまたは3Dボックスのレンダリングに拡張する。我々の手法であるCtrl-Vは、修正および微調整された安定ビデオ拡散(SVD)モデルを利用して、軌跡生成と映像生成の両方を解決する。
論文参考訳（メタデータ） (2024-06-09T03:44:35Z)
Ctrl-Adapter: An Efficient and Versatile Framework for Adapting Diverse Controls to Any Diffusion Model [62.51232333352754]
Ctrl-Adapterは、事前訓練されたコントロールネットの適応を通じて、任意の画像/ビデオ拡散モデルに多様なコントロールを追加する。 6つの多様なU-Net/DiTベースの画像/ビデオ拡散モデルにより、Ctrl-AdapterはCOCO上の事前訓練されたコントロールネットのパフォーマンスと一致する。
論文参考訳（メタデータ） (2024-04-15T17:45:36Z)
TrailBlazer: Trajectory Control for Diffusion-Based Video Generation [11.655256653219604]
テキスト・ツー・ビデオ(T2V)生成における制御性はしばしば課題である。我々はキーフレーミングの概念を導入し、対象の軌跡と全体の外観を移動境界ボックスと対応するプロンプトの両方でガイドできるようにする。箱の大きさが大きくなるにつれて、視界や仮想カメラへの移動といった新たな効果が生まれます。
論文参考訳（メタデータ） (2023-12-31T10:51:52Z)
Fine-grained Controllable Video Generation via Object Appearance and Context [74.23066823064575]
細粒度制御可能なビデオ生成法(FACTOR)を提案する。 FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
論文参考訳（メタデータ） (2023-12-05T17:47:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。