論文の概要: PSF-4D: A Progressive Sampling Framework for View Consistent 4D Editing
- arxiv url: http://arxiv.org/abs/2503.11044v1
- Date: Fri, 14 Mar 2025 03:16:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:07:31.202172
- Title: PSF-4D: A Progressive Sampling Framework for View Consistent 4D Editing
- Title(参考訳): PSF-4D:ビュー一貫性4D編集のためのプログレッシブサンプリングフレームワーク
- Authors: Hasan Iqbal, Nazmul Karim, Umar Khalid, Azib Farooq, Zichun Zhong, Jing Hua, Chen Chen,
- Abstract要約: 4次元編集のためのプログレッシブサンプリングフレームワーク(PSF-4D)を提案する。
時間的コヒーレンスのために、時間とともにフレームをリンクする相関したガウス雑音構造を設計する。
ビュー間の空間的整合性を実現するために、クロスビューノイズモデルを実装している。
提案手法は,外部モデルに頼らずに高品質な4D編集を可能にする。
- 参考スコア(独自算出の注目度): 10.331089974537873
- License:
- Abstract: Instruction-guided generative models, especially those using text-to-image (T2I) and text-to-video (T2V) diffusion frameworks, have advanced the field of content editing in recent years. To extend these capabilities to 4D scene, we introduce a progressive sampling framework for 4D editing (PSF-4D) that ensures temporal and multi-view consistency by intuitively controlling the noise initialization during forward diffusion. For temporal coherence, we design a correlated Gaussian noise structure that links frames over time, allowing each frame to depend meaningfully on prior frames. Additionally, to ensure spatial consistency across views, we implement a cross-view noise model, which uses shared and independent noise components to balance commonalities and distinct details among different views. To further enhance spatial coherence, PSF-4D incorporates view-consistent iterative refinement, embedding view-aware information into the denoising process to ensure aligned edits across frames and views. Our approach enables high-quality 4D editing without relying on external models, addressing key challenges in previous methods. Through extensive evaluation on multiple benchmarks and multiple editing aspects (e.g., style transfer, multi-attribute editing, object removal, local editing, etc.), we show the effectiveness of our proposed method. Experimental results demonstrate that our proposed method outperforms state-of-the-art 4D editing methods in diverse benchmarks.
- Abstract(参考訳): 近年,テキスト・ツー・イメージ(T2I)とテキスト・ツー・ビデオ(T2V)の拡散フレームワークを用いた指導誘導型生成モデルが,コンテンツ編集の分野を進歩させている。
これらの機能を4Dシーンに拡張するために,前向き拡散時のノイズ初期化を直感的に制御することで,時間的・多視点整合性を確保する4D編集のためのプログレッシブサンプリングフレームワーク(PSF-4D)を導入する。
時間的コヒーレンスのために、時間とともにフレームをリンクするガウス雑音構造を設計し、各フレームが以前のフレームに有意に依存できるようにする。
さらに、ビュー間の空間的整合性を確保するために、共有ノイズ成分と独立ノイズ成分を用いて、異なるビュー間の共通性と異なる詳細のバランスをとるクロスビューノイズモデルを実装した。
空間コヒーレンスをさらに高めるため、PSF-4Dはビュー一貫性の反復的洗練を取り入れ、視野認識情報をデノナイズプロセスに埋め込んで、フレームやビュー間の整列的な編集を保証する。
提案手法では,外部モデルに頼らずに高品質な4D編集が可能であり,従来手法の主な課題に対処する。
複数のベンチマークと複数の編集側面(例えば、スタイル転送、多属性編集、オブジェクト削除、ローカル編集など)について広範囲に評価することで、提案手法の有効性を示す。
実験の結果,提案手法は様々なベンチマークにおいて最先端の4D編集方法よりも優れていた。
関連論文リスト
- CT4D: Consistent Text-to-4D Generation with Animatable Meshes [53.897244823604346]
我々は,任意のユーザ供給プロンプトから一貫した4Dコンテンツを生成するために,アニマタブルメッシュを直接操作するCT4Dという新しいフレームワークを提案する。
我々のフレームワークは、テキスト整列メッシュの作成を強化するために、ユニークなGenerate-Refine-Animate (GRA)アルゴリズムを組み込んでいる。
定性的かつ定量的な実験結果から,我々のCT4Dフレームワークは,フレーム間の整合性の維持とグローバルジオメトリの保存において,既存のテキスト・ツー・4D技術を超えていることが示された。
論文 参考訳(メタデータ) (2024-08-15T14:41:34Z) - SyncNoise: Geometrically Consistent Noise Prediction for Text-based 3D Scene Editing [58.22339174221563]
高忠実度3Dシーン編集のための新しい幾何誘導型マルチビュー一貫したノイズ編集手法SyncNoiseを提案する。
SyncNoiseは2次元拡散モデルで複数のビューを同期的に編集し、幾何的に一貫した多視点ノイズ予測を行う。
本手法は,特に複雑なテクスチャを持つシーンにおいて,テキストの指示に配慮した高品質な3D編集結果を実現する。
論文 参考訳(メタデータ) (2024-06-25T09:17:35Z) - Instruct 4D-to-4D: Editing 4D Scenes as Pseudo-3D Scenes Using 2D Diffusion [30.331519274430594]
命令4D-to-4Dは、高品質な命令誘導動的シーン編集結果を生成する。
我々は、4Dシーンを擬似3Dシーンとして扱い、ビデオ編集における時間的一貫性を実現し、擬似3Dシーンに適用する2つのサブプロブレムに分解する。
様々な場面でのアプローチと編集指示を幅広く評価し,空間的・時間的に一貫した編集結果が得られることを示した。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - EG4D: Explicit Generation of 4D Object without Score Distillation [105.63506584772331]
DG4Dは、スコア蒸留なしで高品質で一貫した4Dアセットを生成する新しいフレームワークである。
私たちのフレームワークは、世代品質のベースラインをかなりのマージンで上回ります。
論文 参考訳(メタデータ) (2024-05-28T12:47:22Z) - Comp4D: LLM-Guided Compositional 4D Scene Generation [65.5810466788355]
合成 4D 生成のための新しいフレームワーク Comp4D について述べる。
シーン全体の特異な4D表現を生成する従来の方法とは異なり、Comp4Dはシーン内の各4Dオブジェクトを革新的に別々に構築する。
提案手法は, 予め定義された軌道で導かれる合成スコア蒸留技術を用いている。
論文 参考訳(メタデータ) (2024-03-25T17:55:52Z) - Consolidating Attention Features for Multi-view Image Editing [126.19731971010475]
本研究では,空間制御に基づく幾何学的操作に着目し,様々な視点にまたがって編集プロセスを統合する手法を提案する。
編集画像の内部クエリ機能に基づいて訓練されたニューラルラジアンス場QNeRFを紹介する。
拡散時間の経過とともにクエリをよりよく統合する、プログレッシブで反復的な手法により、プロセスを洗練します。
論文 参考訳(メタデータ) (2024-02-22T18:50:18Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
textbf4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
我々のパイプラインは、制御可能な4D生成を容易にし、ユーザがモノクロビデオで動きを指定したり、画像から映像への世代を適用できる。
既存のビデオから4Dのベースラインと比較すると,入力信号の忠実な再構成には優れた結果が得られる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z) - 4D Association Graph for Realtime Multi-person Motion Capture Using
Multiple Video Cameras [46.664422061537564]
本稿では,マルチビュー映像入力を用いた新しいリアルタイム多対人モーションキャプチャーアルゴリズムを提案する。
ビューパース、クロスビューマッチング、時間トラッキングを単一の最適化フレームワークに統合します。
提案手法はノイズ検出に頑健であり,高品質なオンラインポーズ復元品質を実現する。
論文 参考訳(メタデータ) (2020-02-28T09:57:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。