論文の概要: DreamVideo: Composing Your Dream Videos with Customized Subject and
Motion
- arxiv url: http://arxiv.org/abs/2312.04433v1
- Date: Thu, 7 Dec 2023 16:57:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 14:09:11.090120
- Title: DreamVideo: Composing Your Dream Videos with Customized Subject and
Motion
- Title(参考訳): DreamVideo: カスタマイズされたテーマとモーションでドリームビデオを作る
- Authors: Yujie Wei, Shiwei Zhang, Zhiwu Qing, Hangjie Yuan, Zhiheng Liu, Yu
Liu, Yingya Zhang, Jingren Zhou, Hongming Shan
- Abstract要約: 対象の静的画像からパーソナライズされたビデオを生成する新しいアプローチであるDreamVideoを紹介します。
DreamVideoは、このタスクを、トレーニング済みのビデオ拡散モデルを活用することによって、主観学習とモーション学習の2つの段階に分離する。
モーション学習では、対象のモーションパターンを効果的にモデル化するために、モーションアダプタを設計し、所定のビデオに微調整する。
- 参考スコア(独自算出の注目度): 52.7394517692186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Customized generation using diffusion models has made impressive progress in
image generation, but remains unsatisfactory in the challenging video
generation task, as it requires the controllability of both subjects and
motions. To that end, we present DreamVideo, a novel approach to generating
personalized videos from a few static images of the desired subject and a few
videos of target motion. DreamVideo decouples this task into two stages,
subject learning and motion learning, by leveraging a pre-trained video
diffusion model. The subject learning aims to accurately capture the fine
appearance of the subject from provided images, which is achieved by combining
textual inversion and fine-tuning of our carefully designed identity adapter.
In motion learning, we architect a motion adapter and fine-tune it on the given
videos to effectively model the target motion pattern. Combining these two
lightweight and efficient adapters allows for flexible customization of any
subject with any motion. Extensive experimental results demonstrate the
superior performance of our DreamVideo over the state-of-the-art methods for
customized video generation. Our project page is at
https://dreamvideo-t2v.github.io.
- Abstract(参考訳): 拡散モデルを用いたカスタマイズ生成は画像生成において顕著な進歩を遂げてきたが、対象と動作の両方の制御性を必要とするため、難しい映像生成作業には満足できない。
そこで本研究では,対象者の静止画像と対象動画からパーソナライズされた動画を生成する新しい手法であるdreamvideoを提案する。
dreamvideoは、事前学習されたビデオ拡散モデルを利用して、この課題を主題学習と動き学習の2つの段階に分解する。
本研究の目的は,テキストインバージョンと慎重に設計したIDアダプタの微調整を組み合わせることで得られる画像から,被験者の外観を正確に把握することである。
モーション学習では、対象のモーションパターンを効果的にモデル化するために、モーションアダプタを設計し、所定のビデオに微調整する。
これら2つの軽量で効率的なアダプタを組み合わせることで、どんな運動でも柔軟にカスタマイズできる。
幅広い実験結果から,映像生成の最先端手法よりもドリームビデオが優れていることを示した。
私たちのプロジェクトページはhttps://dreamvideo-t2v.github.ioにあります。
関連論文リスト
- DreamVideo-2: Zero-Shot Subject-Driven Video Customization with Precise Motion Control [42.506988751934685]
本研究では、特定の主題と動きの軌跡でビデオを生成することができるゼロショットビデオカスタマイズフレームワークDreamVideo-2を提案する。
具体的には,対象学習におけるモデル固有の能力を活用する参照アテンションを導入する。
我々は,ボックスマスクの頑健な動作信号を完全に活用して,高精度な動作制御を実現するためのマスク誘導型モーションモジュールを考案した。
論文 参考訳(メタデータ) (2024-10-17T17:52:57Z) - Replace Anyone in Videos [39.4019337319795]
ビデオ中の人間の動きのローカライズと操作に焦点を当てたReplaceAnyoneフレームワークを提案する。
具体的には、このタスクをイメージ条件付きポーズ駆動ビデオインペインティングパラダイムとして定式化する。
形状漏れを回避し,局所制御のきめ細かな制御を可能にするために,規則形状と不規則形状を含む多種多様なマスク形式を導入する。
論文 参考訳(メタデータ) (2024-09-30T03:27:33Z) - Image Conductor: Precision Control for Interactive Video Synthesis [90.2353794019393]
映画製作とアニメーション制作は、しばしばカメラの遷移と物体の動きを調整するための洗練された技術を必要とする。
イメージコンダクタ(Image Conductor)は、カメラトランジションとオブジェクトの動きを正確に制御し、単一の画像からビデオアセットを生成する方法である。
論文 参考訳(メタデータ) (2024-06-21T17:55:05Z) - Customize-A-Video: One-Shot Motion Customization of Text-to-Video Diffusion Models [48.56724784226513]
本研究では,単一参照ビデオからの動作をモデル化し,空間的・時間的変化のある新しい主題やシーンに適応するCustomize-A-Videoを提案する。
提案するモジュールは、ステージ化されたパイプラインでトレーニングされ、プラグイン・アンド・プレイ方式で推論され、様々な下流タスクへの容易に拡張できる。
論文 参考訳(メタデータ) (2024-02-22T18:38:48Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - MotionDirector: Motion Customization of Text-to-Video Diffusion Models [24.282240656366714]
Motion Customizationは、既存のテキストとビデオの拡散モデルを適用して、カスタマイズされたモーションでビデオを生成することを目的としている。
我々は、外見と動きの学習を分離するために、デュアルパスのLoRAsアーキテクチャを持つMotionDirectorを提案する。
また,異なる動画の外観と動きの混合や,カスタマイズされたモーションによる単一画像のアニメーションなど,さまざまなダウンストリームアプリケーションもサポートしている。
論文 参考訳(メタデータ) (2023-10-12T16:26:18Z) - Probabilistic Adaptation of Text-to-Video Models [181.84311524681536]
Video Adapterは、タスク固有の小さなビデオモデルに、幅広い知識を取り入れ、大きな事前訓練されたビデオモデルの忠実度を維持することができる。
Video Adapterは、アニメーション、エゴセントリックなモデリング、シミュレートされた実世界のロボティクスデータのモデリングなど、さまざまなタスクで高品質で特殊なビデオを生成することができる。
論文 参考訳(メタデータ) (2023-06-02T19:00:17Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。