論文の概要: DynVFX: Augmenting Real Videos with Dynamic Content
- arxiv url: http://arxiv.org/abs/2502.03621v1
- Date: Wed, 05 Feb 2025 21:14:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:32:48.066725
- Title: DynVFX: Augmenting Real Videos with Dynamic Content
- Title(参考訳): DynVFX: ダイナミックコンテンツによるリアルビデオの拡張
- Authors: Danah Yatim, Rafail Fridman, Omer Bar-Tal, Tali Dekel,
- Abstract要約: 本稿では,動的コンテンツを新たに生成した実世界の映像を拡大する手法を提案する。
入力ビデオと、所望の内容を記述した簡単なテキスト命令が与えられた場合、本手法は動的オブジェクトや複雑なシーン効果を合成する。
新しいコンテンツの位置、外観、動きは、元の映像にシームレスに統合される。
- 参考スコア(独自算出の注目度): 19.393567535259518
- License:
- Abstract: We present a method for augmenting real-world videos with newly generated dynamic content. Given an input video and a simple user-provided text instruction describing the desired content, our method synthesizes dynamic objects or complex scene effects that naturally interact with the existing scene over time. The position, appearance, and motion of the new content are seamlessly integrated into the original footage while accounting for camera motion, occlusions, and interactions with other dynamic objects in the scene, resulting in a cohesive and realistic output video. We achieve this via a zero-shot, training-free framework that harnesses a pre-trained text-to-video diffusion transformer to synthesize the new content and a pre-trained Vision Language Model to envision the augmented scene in detail. Specifically, we introduce a novel inference-based method that manipulates features within the attention mechanism, enabling accurate localization and seamless integration of the new content while preserving the integrity of the original scene. Our method is fully automated, requiring only a simple user instruction. We demonstrate its effectiveness on a wide range of edits applied to real-world videos, encompassing diverse objects and scenarios involving both camera and object motion.
- Abstract(参考訳): 本稿では,動的コンテンツを新たに生成した実世界の映像を拡大する手法を提案する。
入力ビデオと、所望の内容を記述した簡単なテキスト命令が与えられた場合、本手法は、時間とともに既存のシーンと自然に対話する動的なオブジェクトや複雑なシーン効果を合成する。
新しいコンテンツの位置、外観、動きは、カメラの動き、閉塞、シーン内の他の動的物体との相互作用を考慮しつつ、元の映像にシームレスに統合され、結束的でリアルな出力ビデオとなる。
我々は、事前訓練されたテキスト・ビデオ拡散変換器を利用して、新たなコンテンツを合成するゼロショット・トレーニングフリーのフレームワークと、拡張シーンを詳細に視覚化する事前訓練されたビジョン言語モデルによりこれを実現した。
具体的には、アテンションメカニズム内の特徴を操作し、元のシーンの完全性を維持しつつ、新しいコンテンツの正確なローカライズとシームレスな統合を可能にする、新しい推論ベースの手法を提案する。
我々の手法は完全に自動化されており、単純なユーザー指示しか必要としない。
実世界の映像に応用された広範囲な編集において、カメラと物体の動きの両方にまつわる多様な物体やシナリオを包含して、その効果を実証する。
関連論文リスト
- X-Dyna: Expressive Dynamic Human Image Animation [49.896933584815926]
X-Dynaは、単一の人間のイメージをアニメーションするための、ゼロショットで拡散ベースのパイプラインである。
対象と周辺環境の両方に対して現実的でコンテキスト対応のダイナミクスを生成する。
論文 参考訳(メタデータ) (2025-01-17T08:10:53Z) - Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors [63.43133768897087]
オープンドメイン画像をアニメーションビデオに変換する手法を提案する。
鍵となるアイデアは、画像を生成プロセスに組み込むことで、テキストからビデオへの拡散モデルに先立っての動きを活用することである。
提案手法は視覚的に説得力があり、より論理的で自然な動きが得られ、入力画像への適合性が向上する。
論文 参考訳(メタデータ) (2023-10-18T14:42:16Z) - Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。
最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。
第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-07-13T17:57:13Z) - DynIBaR: Neural Dynamic Image-Based Rendering [79.44655794967741]
複雑な動的シーンを描写したモノクロ映像から新しいビューを合成する問題に対処する。
我々は,近傍のビューから特徴を集約することで,新しい視点を合成するボリューム画像ベースのレンダリングフレームワークを採用する。
動的シーンデータセットにおける最先端手法の大幅な改善を示す。
論文 参考訳(メタデータ) (2022-11-20T20:57:02Z) - Disentangling Content and Motion for Text-Based Neural Video
Manipulation [28.922000242744435]
自然言語で動画を操作するためのDiCoMoGANという新しい手法を提案する。
評価の結果,DiCoMoGANは既存のフレームベース手法よりも優れていた。
論文 参考訳(メタデータ) (2022-11-05T21:49:41Z) - Neural Scene Graphs for Dynamic Scenes [57.65413768984925]
動的シーンをシーングラフに分解する最初のニューラルレンダリング手法を提案する。
我々は暗黙的に符号化されたシーンと、単一の暗黙の関数でオブジェクトを記述するために共同で学習された潜在表現を組み合わせる。
論文 参考訳(メタデータ) (2020-11-20T12:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。