論文の概要: PLA4D: Pixel-Level Alignments for Text-to-4D Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2405.19957v2
- Date: Tue, 4 Jun 2024 06:56:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 10:40:04.663755
- Title: PLA4D: Pixel-Level Alignments for Text-to-4D Gaussian Splatting
- Title(参考訳): PLA4D:テキストから4Dガウス分割のためのピクセルレベルアライメント
- Authors: Qiaowei Miao, Yawei Luo, Yi Yang,
- Abstract要約: 我々は,静的な3Dオブジェクトを生成し,それらに動きを注入するために,テキストからビデオまでのフレームを明示的な画素アライメントターゲットとして提案する。
本研究では、変形ネットワークを用いてガウスの変化を駆動し、滑らかな4次元物体表面に対する参照再ファインメントを実装するモーションアライメントを開発する。
従来の方法と比較して、PLA4Dはより少ない時間でより優れたテクスチャの詳細を持つ合成出力を生成し、Janus-faced問題を効果的に緩和する。
- 参考スコア(独自算出の注目度): 26.382349137191547
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As text-conditioned diffusion models (DMs) achieve breakthroughs in image, video, and 3D generation, the research community's focus has shifted to the more challenging task of text-to-4D synthesis, which introduces a temporal dimension to generate dynamic 3D objects. In this context, we identify Score Distillation Sampling (SDS), a widely used technique for text-to-3D synthesis, as a significant hindrance to text-to-4D performance due to its Janus-faced and texture-unrealistic problems coupled with high computational costs. In this paper, we propose \textbf{P}ixel-\textbf{L}evel \textbf{A}lignments for Text-to-\textbf{4D} Gaussian Splatting (\textbf{PLA4D}), a novel method that utilizes text-to-video frames as explicit pixel alignment targets to generate static 3D objects and inject motion into them. Specifically, we introduce Focal Alignment to calibrate camera poses for rendering and GS-Mesh Contrastive Learning to distill geometry priors from rendered image contrasts at the pixel level. Additionally, we develop Motion Alignment using a deformation network to drive changes in Gaussians and implement Reference Refinement for smooth 4D object surfaces. These techniques enable 4D Gaussian Splatting to align geometry, texture, and motion with generated videos at the pixel level. Compared to previous methods, PLA4D produces synthesized outputs with better texture details in less time and effectively mitigates the Janus-faced problem. PLA4D is fully implemented using open-source models, offering an accessible, user-friendly, and promising direction for 4D digital content creation. Our project page: https://github.com/MiaoQiaowei/PLA4D.github.io.
- Abstract(参考訳): テキスト条件拡散モデル (DM) が画像, ビデオ, 3次元生成のブレークスルーを達成するにつれ, 研究コミュニティの焦点は, 動的3次元オブジェクトを生成するための時間次元を導入し, テキストから4次元合成の課題へとシフトしてきた。
そこで本研究では,テキスト・ツー・3D合成技術として広く用いられているスコア蒸留サンプリング(SDS)を,Janus-facedとテクスチャ・非現実的な問題と高い計算コストによるテキスト・ツー・4D性能の重大な障害として同定する。
本稿では,テキストからビデオまでのフレームを明示的な画素アライメントターゲットとして利用し,静的な3Dオブジェクトを生成して動きを注入する新しい手法であるGaussian Splatting (\textbf{PLA4D})を提案する。
具体的には、レンダリングのためのカメラポーズの校正にFocal Alignmentを導入し、GS-Mesh Contrastive Learningを使用して、ピクセルレベルのレンダリング画像コントラストから幾何学的先行を抽出する。
さらに、変形ネットワークを用いて、ガウスの変化を駆動し、滑らかな4次元物体表面に対する参照再ファインメントを実装するモーションアライメントを開発した。
これらの技術により、4Dガウススプラッティングは、幾何学、テクスチャ、動きをピクセルレベルで生成されたビデオと整列させることができる。
従来の方法と比較して、PLA4Dはより少ない時間でより優れたテクスチャの詳細を持つ合成出力を生成し、Janus-faced問題を効果的に緩和する。
PLA4Dはオープンソースモデルで完全に実装されており、4Dデジタルコンテンツ作成のためのアクセス可能でユーザフレンドリで有望な方向性を提供する。
私たちのプロジェクトページは、https://github.com/MiaoQiaowei/PLA4D.github.ioです。
関連論文リスト
- Trans4D: Realistic Geometry-Aware Transition for Compositional Text-to-4D Synthesis [60.853577108780414]
既存の4D生成方法は、ユーザフレンドリーな条件に基づいて高品質な4Dオブジェクトやシーンを生成することができる。
現実的な複雑なシーン遷移を可能にする新しいテキストから4D合成フレームワークであるTrans4Dを提案する。
実験では、Trans4Dは、4Dシーンを正確かつ高品質な遷移で生成する既存の最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2024-10-09T17:56:03Z) - CT4D: Consistent Text-to-4D Generation with Animatable Meshes [53.897244823604346]
我々は,任意のユーザ供給プロンプトから一貫した4Dコンテンツを生成するために,アニマタブルメッシュを直接操作するCT4Dという新しいフレームワークを提案する。
我々のフレームワークは、テキスト整列メッシュの作成を強化するために、ユニークなGenerate-Refine-Animate (GRA)アルゴリズムを組み込んでいる。
定性的かつ定量的な実験結果から,我々のCT4Dフレームワークは,フレーム間の整合性の維持とグローバルジオメトリの保存において,既存のテキスト・ツー・4D技術を超えていることが示された。
論文 参考訳(メタデータ) (2024-08-15T14:41:34Z) - Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。
ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。
提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文 参考訳(メタデータ) (2024-05-26T17:47:34Z) - SC4D: Sparse-Controlled Video-to-4D Generation and Motion Transfer [57.506654943449796]
動作と外観を分離するSC4Dという,効率的でスパース制御されたビデオ・ツー・4Dフレームワークを提案する。
我々の手法は、品質と効率の両面で既存の手法を超越している。
動作を多種多様な4Dエンティティにシームレスに転送する新しいアプリケーションを考案する。
論文 参考訳(メタデータ) (2024-04-04T18:05:18Z) - STAG4D: Spatial-Temporal Anchored Generative 4D Gaussians [36.83603109001298]
STAG4Dは、事前訓練された拡散モデルと動的3次元ガウススプラッティングを組み合わせた、高忠実度4D生成のための新しいフレームワークである。
提案手法は, レンダリング品質, 時空間整合性, 生成ロバスト性において, 先行4次元生成よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-22T04:16:33Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
この4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
静的な3Dアセットとモノクロビデオシーケンスを4Dコンテンツ構築のキーコンポーネントとして同定する。
我々のパイプラインは条件付き4D生成を容易にし、ユーザーは幾何学(3Dアセット)と運動(眼球ビデオ)を指定できる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z) - Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed
Diffusion Models [94.07744207257653]
我々は、探索されていないテキストから4D設定に焦点をあて、動的にアニメーションされた3Dオブジェクトを合成する。
4次元オブジェクト最適化において,テキスト・ツー・イメージ,テキスト・ツー・ビデオ,および3次元認識型多視点拡散モデルを組み合わせてフィードバックを提供する。
論文 参考訳(メタデータ) (2023-12-21T11:41:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。