論文の概要: Instruct 4D-to-4D: Editing 4D Scenes as Pseudo-3D Scenes Using 2D Diffusion
- arxiv url: http://arxiv.org/abs/2406.09402v1
- Date: Thu, 13 Jun 2024 17:59:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 16:06:12.786334
- Title: Instruct 4D-to-4D: Editing 4D Scenes as Pseudo-3D Scenes Using 2D Diffusion
- Title(参考訳): Instruct 4D-to-4D:Editing 4D Scenes as Pseudo-3D Scenes using 2D Diffusion
- Authors: Linzhan Mou, Jun-Kun Chen, Yu-Xiong Wang,
- Abstract要約: 命令4D-to-4Dは、高品質な命令誘導動的シーン編集結果を生成する。
我々は、4Dシーンを擬似3Dシーンとして扱い、ビデオ編集における時間的一貫性を実現し、擬似3Dシーンに適用する2つのサブプロブレムに分解する。
様々な場面でのアプローチと編集指示を幅広く評価し,空間的・時間的に一貫した編集結果が得られることを示した。
- 参考スコア(独自算出の注目度): 30.331519274430594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes Instruct 4D-to-4D that achieves 4D awareness and spatial-temporal consistency for 2D diffusion models to generate high-quality instruction-guided dynamic scene editing results. Traditional applications of 2D diffusion models in dynamic scene editing often result in inconsistency, primarily due to their inherent frame-by-frame editing methodology. Addressing the complexities of extending instruction-guided editing to 4D, our key insight is to treat a 4D scene as a pseudo-3D scene, decoupled into two sub-problems: achieving temporal consistency in video editing and applying these edits to the pseudo-3D scene. Following this, we first enhance the Instruct-Pix2Pix (IP2P) model with an anchor-aware attention module for batch processing and consistent editing. Additionally, we integrate optical flow-guided appearance propagation in a sliding window fashion for more precise frame-to-frame editing and incorporate depth-based projection to manage the extensive data of pseudo-3D scenes, followed by iterative editing to achieve convergence. We extensively evaluate our approach in various scenes and editing instructions, and demonstrate that it achieves spatially and temporally consistent editing results, with significantly enhanced detail and sharpness over the prior art. Notably, Instruct 4D-to-4D is general and applicable to both monocular and challenging multi-camera scenes. Code and more results are available at immortalco.github.io/Instruct-4D-to-4D.
- Abstract(参考訳): 本稿では,2次元拡散モデルの4次元認識と時空間整合性を実現し,高品質な指導誘導動的シーン編集結果を生成するインストラクション4D-to-4Dを提案する。
動的シーン編集における2次元拡散モデルの伝統的な応用は、主にフレーム単位の編集手法によって、矛盾をもたらすことが多い。
命令誘導編集を4Dに拡張する複雑さに対処するために、我々の重要な洞察は、4Dシーンを擬似3Dシーンとして扱い、ビデオ編集における時間的一貫性と擬似3Dシーンへのそれらの編集の適用の2つのサブプロブレムに分解することである。
次に、まず、バッチ処理と一貫した編集のためのアンカー認識アテンションモジュールを備えたインストラクト-Pix2Pix(IP2P)モデルを拡張する。
さらに、より正確なフレーム・ツー・フレーム編集を行うために、光フロー誘導外界伝搬をスライディングウインドウ方式で統合し、奥行きに基づくプロジェクションを組み込んで擬似3Dシーンの広範囲なデータを管理し、次いで反復的編集を行い収束を図る。
提案手法を様々な場面で広く評価し,空間的・時間的に一貫した編集結果が得られることを示した。
特に、インストラクション4D-to-4Dは一般的なもので、モノクラーシーンと挑戦的なマルチカメラシーンの両方に適用できる。
コードやその他の結果はImmortalco.github.io/Instruct-4D-to-4Dで公開されている。
関連論文リスト
- Trans4D: Realistic Geometry-Aware Transition for Compositional Text-to-4D Synthesis [60.853577108780414]
既存の4D生成方法は、ユーザフレンドリーな条件に基づいて高品質な4Dオブジェクトやシーンを生成することができる。
現実的な複雑なシーン遷移を可能にする新しいテキストから4D合成フレームワークであるTrans4Dを提案する。
実験では、Trans4Dは、4Dシーンを正確かつ高品質な遷移で生成する既存の最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2024-10-09T17:56:03Z) - 3DEgo: 3D Editing on the Go! [6.072473323242202]
本稿では,テキストプロンプトで案内されたモノクロ映像から3Dシーンを直接合成する新しい問題に対処する3DEgoを紹介する。
本フレームワークは,従来のマルチステージ3D編集プロセスを一段階のワークフローに合理化する。
3DEgoは、様々なビデオソースの編集精度、速度、適応性を示す。
論文 参考訳(メタデータ) (2024-07-14T07:03:50Z) - ConsistDreamer: 3D-Consistent 2D Diffusion for High-Fidelity Scene Editing [43.57569035470579]
ConsistDreamerは、3D認識と3D一貫性を備えた2D拡散モデルを持ち上げるフレームワークである。
本稿では,2次元拡散モデルの入力を3次元対応に増強する3つの相乗戦略を提案する。
また、シーンごとの編集手順の中で、自己教師付き一貫性強化トレーニングを導入する。
論文 参考訳(メタデータ) (2024-06-13T17:59:32Z) - DGE: Direct Gaussian 3D Editing by Consistent Multi-view Editing [72.54566271694654]
オープンな言語命令に基づいて3Dオブジェクトやシーンを編集する際の問題点を考察する。
この問題に対する一般的なアプローチは、3D編集プロセスをガイドするために2Dイメージジェネレータまたはエディタを使用することである。
このプロセスは、コストのかかる3D表現の反復的な更新を必要とするため、しばしば非効率である。
論文 参考訳(メタデータ) (2024-04-29T17:59:30Z) - Comp4D: LLM-Guided Compositional 4D Scene Generation [65.5810466788355]
合成 4D 生成のための新しいフレームワーク Comp4D について述べる。
シーン全体の特異な4D表現を生成する従来の方法とは異なり、Comp4Dはシーン内の各4Dオブジェクトを革新的に別々に構築する。
提案手法は, 予め定義された軌道で導かれる合成スコア蒸留技術を用いている。
論文 参考訳(メタデータ) (2024-03-25T17:55:52Z) - View-Consistent 3D Editing with Gaussian Splatting [50.6460814430094]
View-Consistent Editing (VcEdit)は、3DGSをシームレスに画像編集プロセスに組み込む新しいフレームワークである。
一貫性モジュールを反復パターンに組み込むことで、VcEditはマルチビューの不整合の問題を十分に解決する。
論文 参考訳(メタデータ) (2024-03-18T15:22:09Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
この4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
静的な3Dアセットとモノクロビデオシーケンスを4Dコンテンツ構築のキーコンポーネントとして同定する。
我々のパイプラインは条件付き4D生成を容易にし、ユーザーは幾何学(3Dアセット)と運動(眼球ビデオ)を指定できる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z) - A Unified Approach for Text- and Image-guided 4D Scene Generation [58.658768832653834]
本研究では,テキストから4Dへの新たな2段階合成手法であるDream-in-4Dを提案する。
提案手法は,画像の画質,3次元整合性,テキスト・ツー・4次元生成におけるテキストの忠実度を著しく向上することを示す。
本手法は,テキストから4D,画像から4D,パーソナライズされた4D生成タスクに対して,初めて統一されたアプローチを提供する。
論文 参考訳(メタデータ) (2023-11-28T15:03:53Z) - Control4D: Efficient 4D Portrait Editing with Text [43.8606103369037]
テキスト命令を用いて動的4Dポートレートを編集する革新的なフレームワークであるControl4Dを紹介する。
提案手法は, 既存の4次元表現の非効率性や, 拡散型編集装置による非一貫性な編集効果など, 4次元編集における課題に対処する。
論文 参考訳(メタデータ) (2023-05-31T17:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。