論文の概要: PLA4D: Pixel-Level Alignments for Text-to-4D Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2405.19957v4
- Date: Tue, 19 Nov 2024 02:12:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:34:34.939585
- Title: PLA4D: Pixel-Level Alignments for Text-to-4D Gaussian Splatting
- Title(参考訳): PLA4D:テキストから4Dガウス分割のためのピクセルレベルアライメント
- Authors: Qiaowei Miao, JinSheng Quan, Kehan Li, Yawei Luo,
- Abstract要約: 従来のテキストから4Dへの方法は、複数のスコア蒸留サンプリング(SDS)技術を活用している。
textbfPixel-textbfLevel textbfAlignment for text-driven textbf4D Gaussian splatting (PLA4D)
PLA4Dはアンカー参照、すなわちテキスト生成ビデオを提供し、画素空間内の異なるDMによって条件付けられたレンダリングプロセスを調整する。
- 参考スコア(独自算出の注目度): 9.517058280333806
- License:
- Abstract: Previous text-to-4D methods have leveraged multiple Score Distillation Sampling (SDS) techniques, combining motion priors from video-based diffusion models (DMs) with geometric priors from multiview DMs to implicitly guide 4D renderings. However, differences in these priors result in conflicting gradient directions during optimization, causing trade-offs between motion fidelity and geometry accuracy, and requiring substantial optimization time to reconcile the models. In this paper, we introduce \textbf{P}ixel-\textbf{L}evel \textbf{A}lignment for text-driven \textbf{4D} Gaussian splatting (PLA4D) to resolve this motion-geometry conflict. PLA4D provides an anchor reference, i.e., text-generated video, to align the rendering process conditioned by different DMs in pixel space. For static alignment, our approach introduces a focal alignment method and Gaussian-Mesh contrastive learning to iteratively adjust focal lengths and provide explicit geometric priors at each timestep. At the dynamic level, a motion alignment technique and T-MV refinement method are employed to enforce both pose alignment and motion continuity across unknown viewpoints, ensuring intrinsic geometric consistency across views. With such pixel-level multi-DM alignment, our PLA4D framework is able to generate 4D objects with superior geometric, motion, and semantic consistency. Fully implemented with open-source tools, PLA4D offers an efficient and accessible solution for high-quality 4D digital content creation with significantly reduced generation time.
- Abstract(参考訳): 従来のテキスト・トゥ・4D手法では、複数のスコア蒸留サンプリング(SDS)技術を利用して、ビデオベース拡散モデル(DM)からの動作先行と、マルチビューDMからの幾何学的先行とを組み合わせて、4Dレンダリングを暗黙的にガイドしている。
しかし、これらの事前の違いは、最適化中に勾配方向と矛盾し、運動忠実度と幾何精度のトレードオフを引き起こし、モデルの整合に相当な最適化時間を必要とする。
本稿では,テキスト駆動型ガウススプラッティング (PLA4D) に対する \textbf{P}ixel-\textbf{L}evel \textbf{A}lignment を導入する。
PLA4Dはアンカー参照、すなわちテキスト生成ビデオを提供し、画素空間内の異なるDMによって条件付けられたレンダリングプロセスを調整する。
静的アライメントには,焦点アライメント法とガウス・メシュのコントラスト学習を導入し,焦点長を反復的に調整し,各時刻に明示的な幾何学的先行情報を提供する。
動的レベルでは、未知視点におけるポーズアライメントと動き継続性の両方を強制するために、モーションアライメント法とT-MVリファインメント法が採用され、ビュー間の固有の幾何学的整合性を確保する。
このような画素レベルのマルチDMアライメントにより、PLA4Dフレームワークは、幾何学的、運動的、意味的整合性に優れた4Dオブジェクトを生成することができる。
PLA4Dはオープンソースツールで完全に実装されており、高品質な4Dデジタルコンテンツ作成のための効率的でアクセスしやすいソリューションを提供する。
関連論文リスト
- Trans4D: Realistic Geometry-Aware Transition for Compositional Text-to-4D Synthesis [60.853577108780414]
既存の4D生成方法は、ユーザフレンドリーな条件に基づいて高品質な4Dオブジェクトやシーンを生成することができる。
現実的な複雑なシーン遷移を可能にする新しいテキストから4D合成フレームワークであるTrans4Dを提案する。
実験では、Trans4Dは、4Dシーンを正確かつ高品質な遷移で生成する既存の最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2024-10-09T17:56:03Z) - CT4D: Consistent Text-to-4D Generation with Animatable Meshes [53.897244823604346]
我々は,任意のユーザ供給プロンプトから一貫した4Dコンテンツを生成するために,アニマタブルメッシュを直接操作するCT4Dという新しいフレームワークを提案する。
我々のフレームワークは、テキスト整列メッシュの作成を強化するために、ユニークなGenerate-Refine-Animate (GRA)アルゴリズムを組み込んでいる。
定性的かつ定量的な実験結果から,我々のCT4Dフレームワークは,フレーム間の整合性の維持とグローバルジオメトリの保存において,既存のテキスト・ツー・4D技術を超えていることが示された。
論文 参考訳(メタデータ) (2024-08-15T14:41:34Z) - Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。
ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。
提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文 参考訳(メタデータ) (2024-05-26T17:47:34Z) - SC4D: Sparse-Controlled Video-to-4D Generation and Motion Transfer [57.506654943449796]
動作と外観を分離するSC4Dという,効率的でスパース制御されたビデオ・ツー・4Dフレームワークを提案する。
我々の手法は、品質と効率の両面で既存の手法を超越している。
動作を多種多様な4Dエンティティにシームレスに転送する新しいアプリケーションを考案する。
論文 参考訳(メタデータ) (2024-04-04T18:05:18Z) - STAG4D: Spatial-Temporal Anchored Generative 4D Gaussians [36.83603109001298]
STAG4Dは、事前訓練された拡散モデルと動的3次元ガウススプラッティングを組み合わせた、高忠実度4D生成のための新しいフレームワークである。
提案手法は, レンダリング品質, 時空間整合性, 生成ロバスト性において, 先行4次元生成よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-22T04:16:33Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
この4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
静的な3Dアセットとモノクロビデオシーケンスを4Dコンテンツ構築のキーコンポーネントとして同定する。
我々のパイプラインは条件付き4D生成を容易にし、ユーザーは幾何学(3Dアセット)と運動(眼球ビデオ)を指定できる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z) - Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed
Diffusion Models [94.07744207257653]
我々は、探索されていないテキストから4D設定に焦点をあて、動的にアニメーションされた3Dオブジェクトを合成する。
4次元オブジェクト最適化において,テキスト・ツー・イメージ,テキスト・ツー・ビデオ,および3次元認識型多視点拡散モデルを組み合わせてフィードバックを提供する。
論文 参考訳(メタデータ) (2023-12-21T11:41:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。