論文の概要: Generative Rendering: Controllable 4D-Guided Video Generation with 2D
Diffusion Models
- arxiv url: http://arxiv.org/abs/2312.01409v1
- Date: Sun, 3 Dec 2023 14:17:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 17:34:11.623163
- Title: Generative Rendering: Controllable 4D-Guided Video Generation with 2D
Diffusion Models
- Title(参考訳): 生成レンダリング:2次元拡散モデルを用いた制御可能な4d誘導ビデオ生成
- Authors: Shengqu Cai and Duygu Ceylan and Matheus Gadelha and Chun-Hao Paul
Huang and Tuanfeng Yang Wang and Gordon Wetzstein
- Abstract要約: 本稿では,動的3次元メッシュの制御可能性と,新しい拡散モデルの表現性と編集性を組み合わせた新しいアプローチを提案する。
本手法は,トリグアセットのアニメーションやカメラパスの変更によって,動きを得られる様々な例について実証する。
- 参考スコア(独自算出の注目度): 40.71940056121056
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Traditional 3D content creation tools empower users to bring their
imagination to life by giving them direct control over a scene's geometry,
appearance, motion, and camera path. Creating computer-generated videos,
however, is a tedious manual process, which can be automated by emerging
text-to-video diffusion models. Despite great promise, video diffusion models
are difficult to control, hindering a user to apply their own creativity rather
than amplifying it. To address this challenge, we present a novel approach that
combines the controllability of dynamic 3D meshes with the expressivity and
editability of emerging diffusion models. For this purpose, our approach takes
an animated, low-fidelity rendered mesh as input and injects the ground truth
correspondence information obtained from the dynamic mesh into various stages
of a pre-trained text-to-image generation model to output high-quality and
temporally consistent frames. We demonstrate our approach on various examples
where motion can be obtained by animating rigged assets or changing the camera
path.
- Abstract(参考訳): 従来の3dコンテンツ作成ツールは、シーンの形状、外観、動き、カメラパスを直接コントロールすることで、ユーザーが想像力を身につけることができる。
しかし、コンピュータ生成ビデオの作成は面倒な作業であり、テキストからビデオへの拡散モデルによって自動化される。
大きな約束にもかかわらず、ビデオ拡散モデルは制御が難しいため、ユーザーはそれを増幅するのではなく、独自の創造性を適用できない。
そこで本稿では,動的な3dメッシュの制御可能性と,新興拡散モデルの表現性と編集性を組み合わせた新しいアプローチを提案する。
そこで本研究では,動的メッシュから得られた基底真理対応情報を事前学習したテキスト・画像生成モデルの様々な段階に注入し,高品質で時間的に一貫したフレームを出力する。
提案手法は,移動をアニメーション化したり,カメラの経路を変えたりすることで得られる様々な事例に応用できる。
関連論文リスト
- Replace Anyone in Videos [39.4019337319795]
ビデオ中の人間の動きのローカライズと操作に焦点を当てたReplaceAnyoneフレームワークを提案する。
具体的には、このタスクをイメージ条件付きポーズ駆動ビデオインペインティングパラダイムとして定式化する。
形状漏れを回避し,局所制御のきめ細かな制御を可能にするために,規則形状と不規則形状を含む多種多様なマスク形式を導入する。
論文 参考訳(メタデータ) (2024-09-30T03:27:33Z) - Scene123: One Prompt to 3D Scene Generation via Video-Assisted and Consistency-Enhanced MAE [22.072200443502457]
Scene123は3次元シーン生成モデルであり,映像生成フレームワークを通じて現実性と多様性を保証する。
具体的には、入力画像(またはテキストから生成された画像)をワープして、隣接したビューをシミュレートし、MAEモデルで見えない領域を埋める。
生成したビューの細部やテクスチャの忠実度をさらに高めるため,映像生成モデルを用いて入力画像から得られた画像に対して,GANベースのロスを用いた。
論文 参考訳(メタデータ) (2024-08-10T08:09:57Z) - VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control [74.5434726968562]
Plucker座標に基づく制御ネットライクなコンディショニング機構を用いた3次元カメラ制御のためのトランスフォーマー映像を試作する。
我々の研究は、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初のものである。
論文 参考訳(メタデータ) (2024-07-17T17:59:05Z) - WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。
従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。
衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。
私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文 参考訳(メタデータ) (2024-07-15T11:21:03Z) - 4Real: Towards Photorealistic 4D Scene Generation via Video Diffusion Models [53.89348957053395]
テキストから4Dシーン生成のための新しいパイプラインを提案する。
提案手法は,ビデオ生成モデルを用いて参照ビデオを生成することから始まる。
次に、凍結時間ビデオを用いて、ビデオの標準的な3D表現を学習する。
論文 参考訳(メタデータ) (2024-06-11T17:19:26Z) - MotionDreamer: Exploring Semantic Video Diffusion features for Zero-Shot 3D Mesh Animation [10.263762787854862]
本稿では,ビデオ拡散モデルから抽出した動きに基づいて,様々な3次元形状の自動アニメーションを行う手法を提案する。
既存のコンピュータグラフィックスパイプラインと互換性のあるメッシュベースの明示的な表現を活用します。
我々の時間効率ゼロショット法は,多種多様な3次元形状を再アニメーションする優れた性能を実現する。
論文 参考訳(メタデータ) (2024-05-30T15:30:38Z) - Investigating the Effectiveness of Cross-Attention to Unlock Zero-Shot Editing of Text-to-Video Diffusion Models [52.28245595257831]
クロスアテンションガイダンスは、ビデオを編集する上で有望なアプローチだ。
現行のT2Vモデルの限界にもかかわらず、動画編集にはクロスアテンションガイダンスが有望なアプローチであることを示す。
論文 参考訳(メタデータ) (2024-04-08T13:40:01Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - High-Fidelity and Freely Controllable Talking Head Video Generation [31.08828907637289]
本稿では,頭部ポーズと表情を自由に制御できる高忠実な音声ヘッドビデオを生成する新しいモデルを提案する。
顔の歪みを伴わずに効果的に動きを伝達する動き認識機能アライメントモジュールを新たに導入する。
我々は,挑戦的データセットのモデルを評価し,その最先端性能を実証する。
論文 参考訳(メタデータ) (2023-04-20T09:02:41Z) - Dreamix: Video Diffusion Models are General Video Editors [22.127604561922897]
テキスト駆動画像とビデオ拡散モデルは最近、前例のない世代のリアリズムを達成した。
一般的なビデオのテキストベースの動きと外観編集を行うことができる最初の拡散ベース手法を提案する。
論文 参考訳(メタデータ) (2023-02-02T18:58:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。