Fugu-MT 論文翻訳(概要): Generative Rendering: Controllable 4D-Guided Video Generation with 2D Diffusion Models

論文の概要: Generative Rendering: Controllable 4D-Guided Video Generation with 2D Diffusion Models

arxiv url: http://arxiv.org/abs/2312.01409v1
Date: Sun, 3 Dec 2023 14:17:11 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-05 17:34:11.623163
Title: Generative Rendering: Controllable 4D-Guided Video Generation with 2D Diffusion Models
Title（参考訳）: 生成レンダリング:2次元拡散モデルを用いた制御可能な4d誘導ビデオ生成
Authors: Shengqu Cai and Duygu Ceylan and Matheus Gadelha and Chun-Hao Paul Huang and Tuanfeng Yang Wang and Gordon Wetzstein
Abstract要約: 本稿では,動的3次元メッシュの制御可能性と,新しい拡散モデルの表現性と編集性を組み合わせた新しいアプローチを提案する。本手法は,トリグアセットのアニメーションやカメラパスの変更によって,動きを得られる様々な例について実証する。
参考スコア（独自算出の注目度）: 40.71940056121056
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Traditional 3D content creation tools empower users to bring their imagination to life by giving them direct control over a scene's geometry, appearance, motion, and camera path. Creating computer-generated videos, however, is a tedious manual process, which can be automated by emerging text-to-video diffusion models. Despite great promise, video diffusion models are difficult to control, hindering a user to apply their own creativity rather than amplifying it. To address this challenge, we present a novel approach that combines the controllability of dynamic 3D meshes with the expressivity and editability of emerging diffusion models. For this purpose, our approach takes an animated, low-fidelity rendered mesh as input and injects the ground truth correspondence information obtained from the dynamic mesh into various stages of a pre-trained text-to-image generation model to output high-quality and temporally consistent frames. We demonstrate our approach on various examples where motion can be obtained by animating rigged assets or changing the camera path.
Abstract（参考訳）: 従来の3dコンテンツ作成ツールは、シーンの形状、外観、動き、カメラパスを直接コントロールすることで、ユーザーが想像力を身につけることができる。しかし、コンピュータ生成ビデオの作成は面倒な作業であり、テキストからビデオへの拡散モデルによって自動化される。大きな約束にもかかわらず、ビデオ拡散モデルは制御が難しいため、ユーザーはそれを増幅するのではなく、独自の創造性を適用できない。そこで本稿では,動的な3dメッシュの制御可能性と,新興拡散モデルの表現性と編集性を組み合わせた新しいアプローチを提案する。そこで本研究では,動的メッシュから得られた基底真理対応情報を事前学習したテキスト・画像生成モデルの様々な段階に注入し,高品質で時間的に一貫したフレームを出力する。提案手法は,移動をアニメーション化したり,カメラの経路を変えたりすることで得られる様々な事例に応用できる。

関連論文リスト

DreamJourney: Perpetual View Generation with Video Diffusion Models [91.88716097573206]
永続ビュー生成は、単一の入力画像からのみ任意のカメラ軌跡に対応する長期映像を合成することを目的としている。近年の手法では、予め訓練されたテキスト・画像拡散モデルを用いて、カメラの動きに沿った未確認領域の新しいコンテンツを合成する。本稿では,映像拡散モデルの世界シミュレーション能力を活用して,新たなシーンビュー生成タスクを起動する2段階フレームワークであるDreamJourneyを紹介する。
論文参考訳（メタデータ） (2025-06-21T12:51:34Z)
Drive Any Mesh: 4D Latent Diffusion for Mesh Deformation from Video [19.830248504692563]
DriveAnyMeshは、モノクロビデオでガイドされたメッシュを駆動する方法である。潜在集合の列を識別する4次元拡散モデルを提案する。ラッチセットは変分オートエンコーダを利用し、3D形状とモーション情報を同時にキャプチャする。
論文参考訳（メタデータ） (2025-06-09T07:08:58Z)
Follow-Your-Creation: Empowering 4D Creation through Video Inpainting [47.08187788419001]
Follow-Your-Creationは、単一のモノクロビデオ入力から4Dコンテンツを生成および編集できるフレームワークである。映像インパインティング基礎モデルを生成先行として活用することにより、4次元映像作成を映像インパインティングタスクとして再構成する。
論文参考訳（メタデータ） (2025-06-05T03:11:48Z)
I2V3D: Controllable image-to-video generation with 3D guidance [42.23117201457898]
IV23Dは、静的画像を正確な3D制御で動的ビデオにアニメーションするためのフレームワークである。提案手法は,コンピュータグラフィックスパイプラインの精度と高度な生成モデルを組み合わせる。
論文参考訳（メタデータ） (2025-03-12T18:26:34Z)
MotionCanvas: Cinematic Shot Design with Controllable Image-to-Video Generation [65.74312406211213]
本稿では,映像生成の文脈で撮影映像を設計する手法を提案する。 I2V合成において,従来のコンピュータグラフィックスと現代映像生成技術からの洞察を結合することにより,3次元動作制御を実現する能力を示す。
論文参考訳（メタデータ） (2025-02-06T18:41:04Z)
InfiniCube: Unbounded and Controllable Dynamic 3D Driving Scene Generation with World-Guided Video Models [75.03495065452955]
InfiniCubeはダイナミックな3次元駆動シーンを高忠実かつ制御性で生成するスケーラブルな方法である。制御可能でリアルな3Dドライビングシーンを生成でき、モデルの有効性と優越性を広範囲にわたる実験により検証できる。
論文参考訳（メタデータ） (2024-12-05T07:32:20Z)
Replace Anyone in Videos [39.4019337319795]
ビデオ中の人間の動きのローカライズと操作に焦点を当てたReplaceAnyoneフレームワークを提案する。具体的には、このタスクをイメージ条件付きポーズ駆動ビデオインペインティングパラダイムとして定式化する。形状漏れを回避し,局所制御のきめ細かな制御を可能にするために,規則形状と不規則形状を含む多種多様なマスク形式を導入する。
論文参考訳（メタデータ） (2024-09-30T03:27:33Z)
Scene123: One Prompt to 3D Scene Generation via Video-Assisted and Consistency-Enhanced MAE [22.072200443502457]
Scene123は3次元シーン生成モデルであり,映像生成フレームワークを通じて現実性と多様性を保証する。具体的には、入力画像(またはテキストから生成された画像)をワープして、隣接したビューをシミュレートし、MAEモデルで見えない領域を埋める。生成したビューの細部やテクスチャの忠実度をさらに高めるため,映像生成モデルを用いて入力画像から得られた画像に対して,GANベースのロスを用いた。
論文参考訳（メタデータ） (2024-08-10T08:09:57Z)
VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control [74.5434726968562]
Plucker座標に基づく制御ネットライクなコンディショニング機構を用いた3次元カメラ制御のためのトランスフォーマー映像を試作する。我々の研究は、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初のものである。
論文参考訳（メタデータ） (2024-07-17T17:59:05Z)
WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文参考訳（メタデータ） (2024-07-15T11:21:03Z)
4Real: Towards Photorealistic 4D Scene Generation via Video Diffusion Models [53.89348957053395]
テキストから4Dシーン生成のための新しいパイプラインを提案する。提案手法は,ビデオ生成モデルを用いて参照ビデオを生成することから始まる。次に、凍結時間ビデオを用いて、ビデオの標準的な3D表現を学習する。
論文参考訳（メタデータ） (2024-06-11T17:19:26Z)
MotionDreamer: Exploring Semantic Video Diffusion features for Zero-Shot 3D Mesh Animation [10.263762787854862]
本稿では,ビデオ拡散モデルから抽出した動きに基づいて,様々な3次元形状の自動アニメーションを行う手法を提案する。既存のコンピュータグラフィックスパイプラインと互換性のあるメッシュベースの明示的な表現を活用します。我々の時間効率ゼロショット法は,多種多様な3次元形状を再アニメーションする優れた性能を実現する。
論文参考訳（メタデータ） (2024-05-30T15:30:38Z)
Investigating the Effectiveness of Cross-Attention to Unlock Zero-Shot Editing of Text-to-Video Diffusion Models [52.28245595257831]
クロスアテンションガイダンスは、ビデオを編集する上で有望なアプローチだ。現行のT2Vモデルの限界にもかかわらず、動画編集にはクロスアテンションガイダンスが有望なアプローチであることを示す。
論文参考訳（メタデータ） (2024-04-08T13:40:01Z)
VMC: Video Motion Customization using Temporal Attention Adaption for Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文参考訳（メタデータ） (2023-12-01T06:50:11Z)
LaMD: Latent Motion Diffusion for Image-Conditional Video Generation [63.34574080016687]
LaMDフレームワークは、モーション分解されたビデオオートエンコーダと拡散に基づくモーションジェネレータで構成される。 LaMDは、BAIR、Landscape、NATOPS、MUG、CATER-GENなど、さまざまなベンチマークデータセットで高品質なビデオを生成する。
論文参考訳（メタデータ） (2023-04-23T10:32:32Z)
High-Fidelity and Freely Controllable Talking Head Video Generation [31.08828907637289]
本稿では,頭部ポーズと表情を自由に制御できる高忠実な音声ヘッドビデオを生成する新しいモデルを提案する。顔の歪みを伴わずに効果的に動きを伝達する動き認識機能アライメントモジュールを新たに導入する。我々は,挑戦的データセットのモデルを評価し,その最先端性能を実証する。
論文参考訳（メタデータ） (2023-04-20T09:02:41Z)
Dreamix: Video Diffusion Models are General Video Editors [22.127604561922897]
テキスト駆動画像とビデオ拡散モデルは最近、前例のない世代のリアリズムを達成した。一般的なビデオのテキストベースの動きと外観編集を行うことができる最初の拡散ベース手法を提案する。
論文参考訳（メタデータ） (2023-02-02T18:58:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。