論文の概要: Instruct 4D-to-4D: Editing 4D Scenes as Pseudo-3D Scenes Using 2D Diffusion
- arxiv url: http://arxiv.org/abs/2406.09402v1
- Date: Thu, 13 Jun 2024 17:59:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 16:06:12.786334
- Title: Instruct 4D-to-4D: Editing 4D Scenes as Pseudo-3D Scenes Using 2D Diffusion
- Title(参考訳): Instruct 4D-to-4D:Editing 4D Scenes as Pseudo-3D Scenes using 2D Diffusion
- Authors: Linzhan Mou, Jun-Kun Chen, Yu-Xiong Wang,
- Abstract要約: 命令4D-to-4Dは、高品質な命令誘導動的シーン編集結果を生成する。
我々は、4Dシーンを擬似3Dシーンとして扱い、ビデオ編集における時間的一貫性を実現し、擬似3Dシーンに適用する2つのサブプロブレムに分解する。
様々な場面でのアプローチと編集指示を幅広く評価し,空間的・時間的に一貫した編集結果が得られることを示した。
- 参考スコア(独自算出の注目度): 30.331519274430594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes Instruct 4D-to-4D that achieves 4D awareness and spatial-temporal consistency for 2D diffusion models to generate high-quality instruction-guided dynamic scene editing results. Traditional applications of 2D diffusion models in dynamic scene editing often result in inconsistency, primarily due to their inherent frame-by-frame editing methodology. Addressing the complexities of extending instruction-guided editing to 4D, our key insight is to treat a 4D scene as a pseudo-3D scene, decoupled into two sub-problems: achieving temporal consistency in video editing and applying these edits to the pseudo-3D scene. Following this, we first enhance the Instruct-Pix2Pix (IP2P) model with an anchor-aware attention module for batch processing and consistent editing. Additionally, we integrate optical flow-guided appearance propagation in a sliding window fashion for more precise frame-to-frame editing and incorporate depth-based projection to manage the extensive data of pseudo-3D scenes, followed by iterative editing to achieve convergence. We extensively evaluate our approach in various scenes and editing instructions, and demonstrate that it achieves spatially and temporally consistent editing results, with significantly enhanced detail and sharpness over the prior art. Notably, Instruct 4D-to-4D is general and applicable to both monocular and challenging multi-camera scenes. Code and more results are available at immortalco.github.io/Instruct-4D-to-4D.
- Abstract(参考訳): 本稿では,2次元拡散モデルの4次元認識と時空間整合性を実現し,高品質な指導誘導動的シーン編集結果を生成するインストラクション4D-to-4Dを提案する。
動的シーン編集における2次元拡散モデルの伝統的な応用は、主にフレーム単位の編集手法によって、矛盾をもたらすことが多い。
命令誘導編集を4Dに拡張する複雑さに対処するために、我々の重要な洞察は、4Dシーンを擬似3Dシーンとして扱い、ビデオ編集における時間的一貫性と擬似3Dシーンへのそれらの編集の適用の2つのサブプロブレムに分解することである。
次に、まず、バッチ処理と一貫した編集のためのアンカー認識アテンションモジュールを備えたインストラクト-Pix2Pix(IP2P)モデルを拡張する。
さらに、より正確なフレーム・ツー・フレーム編集を行うために、光フロー誘導外界伝搬をスライディングウインドウ方式で統合し、奥行きに基づくプロジェクションを組み込んで擬似3Dシーンの広範囲なデータを管理し、次いで反復的編集を行い収束を図る。
提案手法を様々な場面で広く評価し,空間的・時間的に一貫した編集結果が得られることを示した。
特に、インストラクション4D-to-4Dは一般的なもので、モノクラーシーンと挑戦的なマルチカメラシーンの両方に適用できる。
コードやその他の結果はImmortalco.github.io/Instruct-4D-to-4Dで公開されている。
関連論文リスト
- Efficient Dynamic Scene Editing via 4D Gaussian-based Static-Dynamic Separation [25.047474784265773]
最近の4D動的シーン編集手法では、動的シーン合成に使用される数千の2D画像を編集する必要がある。
これらの手法は動的シーンの時間次元に関して拡張性がない。
本研究では,時間次元の面でよりスケーラブルな動的シーン編集手法を提案する。
論文 参考訳(メタデータ) (2025-02-04T08:18:49Z) - CTRL-D: Controllable Dynamic 3D Scene Editing with Personalized 2D Diffusion [13.744253074367885]
本稿では,まずInstructPix2Pixモデルを微調整し,次いでシーンの2段階最適化を行う新しいフレームワークを提案する。
提案手法は、所望の編集領域を追跡することなく、一貫した正確なローカル編集を可能にする。
最先端の手法と比較して、我々の手法はより柔軟で制御可能なローカルシーン編集を提供する。
論文 参考訳(メタデータ) (2024-12-02T18:38:51Z) - Trans4D: Realistic Geometry-Aware Transition for Compositional Text-to-4D Synthesis [60.853577108780414]
既存の4D生成方法は、ユーザフレンドリーな条件に基づいて高品質な4Dオブジェクトやシーンを生成することができる。
現実的な複雑なシーン遷移を可能にする新しいテキストから4D合成フレームワークであるTrans4Dを提案する。
実験では、Trans4Dは、4Dシーンを正確かつ高品質な遷移で生成する既存の最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2024-10-09T17:56:03Z) - ConsistDreamer: 3D-Consistent 2D Diffusion for High-Fidelity Scene Editing [43.57569035470579]
ConsistDreamerは、3D認識と3D一貫性を備えた2D拡散モデルを持ち上げるフレームワークである。
本稿では,2次元拡散モデルの入力を3次元対応に増強する3つの相乗戦略を提案する。
また、シーンごとの編集手順の中で、自己教師付き一貫性強化トレーニングを導入する。
論文 参考訳(メタデータ) (2024-06-13T17:59:32Z) - DGE: Direct Gaussian 3D Editing by Consistent Multi-view Editing [72.54566271694654]
オープンな言語命令に基づいて3Dオブジェクトやシーンを編集する際の問題点を考察する。
この問題に対する一般的なアプローチは、3D編集プロセスをガイドするために2Dイメージジェネレータまたはエディタを使用することである。
このプロセスは、コストのかかる3D表現の反復的な更新を必要とするため、しばしば非効率である。
論文 参考訳(メタデータ) (2024-04-29T17:59:30Z) - Comp4D: LLM-Guided Compositional 4D Scene Generation [65.5810466788355]
合成 4D 生成のための新しいフレームワーク Comp4D について述べる。
シーン全体の特異な4D表現を生成する従来の方法とは異なり、Comp4Dはシーン内の各4Dオブジェクトを革新的に別々に構築する。
提案手法は, 予め定義された軌道で導かれる合成スコア蒸留技術を用いている。
論文 参考訳(メタデータ) (2024-03-25T17:55:52Z) - View-Consistent 3D Editing with Gaussian Splatting [50.6460814430094]
View-Consistent Editing (VcEdit)は、3DGSをシームレスに画像編集プロセスに組み込む新しいフレームワークである。
一貫性モジュールを反復パターンに組み込むことで、VcEditはマルチビューの不整合の問題を十分に解決する。
論文 参考訳(メタデータ) (2024-03-18T15:22:09Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
textbf4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
我々のパイプラインは、制御可能な4D生成を容易にし、ユーザがモノクロビデオで動きを指定したり、画像から映像への世代を適用できる。
既存のビデオから4Dのベースラインと比較すると,入力信号の忠実な再構成には優れた結果が得られる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z) - A Unified Approach for Text- and Image-guided 4D Scene Generation [58.658768832653834]
本研究では,テキストから4Dへの新たな2段階合成手法であるDream-in-4Dを提案する。
提案手法は,画像の画質,3次元整合性,テキスト・ツー・4次元生成におけるテキストの忠実度を著しく向上することを示す。
本手法は,テキストから4D,画像から4D,パーソナライズされた4D生成タスクに対して,初めて統一されたアプローチを提供する。
論文 参考訳(メタデータ) (2023-11-28T15:03:53Z) - Control4D: Efficient 4D Portrait Editing with Text [43.8606103369037]
テキスト命令を用いて動的4Dポートレートを編集する革新的なフレームワークであるControl4Dを紹介する。
提案手法は, 既存の4次元表現の非効率性や, 拡散型編集装置による非一貫性な編集効果など, 4次元編集における課題に対処する。
論文 参考訳(メタデータ) (2023-05-31T17:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。