論文の概要: PLA4D: Pixel-Level Alignments for Text-to-4D Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2405.19957v4
- Date: Tue, 19 Nov 2024 02:12:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:34:34.939585
- Title: PLA4D: Pixel-Level Alignments for Text-to-4D Gaussian Splatting
- Title(参考訳): PLA4D:テキストから4Dガウス分割のためのピクセルレベルアライメント
- Authors: Qiaowei Miao, JinSheng Quan, Kehan Li, Yawei Luo,
- Abstract要約: 従来のテキストから4Dへの方法は、複数のスコア蒸留サンプリング(SDS)技術を活用している。
textbfPixel-textbfLevel textbfAlignment for text-driven textbf4D Gaussian splatting (PLA4D)
PLA4Dはアンカー参照、すなわちテキスト生成ビデオを提供し、画素空間内の異なるDMによって条件付けられたレンダリングプロセスを調整する。
- 参考スコア(独自算出の注目度): 9.517058280333806
- License:
- Abstract: Previous text-to-4D methods have leveraged multiple Score Distillation Sampling (SDS) techniques, combining motion priors from video-based diffusion models (DMs) with geometric priors from multiview DMs to implicitly guide 4D renderings. However, differences in these priors result in conflicting gradient directions during optimization, causing trade-offs between motion fidelity and geometry accuracy, and requiring substantial optimization time to reconcile the models. In this paper, we introduce \textbf{P}ixel-\textbf{L}evel \textbf{A}lignment for text-driven \textbf{4D} Gaussian splatting (PLA4D) to resolve this motion-geometry conflict. PLA4D provides an anchor reference, i.e., text-generated video, to align the rendering process conditioned by different DMs in pixel space. For static alignment, our approach introduces a focal alignment method and Gaussian-Mesh contrastive learning to iteratively adjust focal lengths and provide explicit geometric priors at each timestep. At the dynamic level, a motion alignment technique and T-MV refinement method are employed to enforce both pose alignment and motion continuity across unknown viewpoints, ensuring intrinsic geometric consistency across views. With such pixel-level multi-DM alignment, our PLA4D framework is able to generate 4D objects with superior geometric, motion, and semantic consistency. Fully implemented with open-source tools, PLA4D offers an efficient and accessible solution for high-quality 4D digital content creation with significantly reduced generation time.
- Abstract(参考訳): 従来のテキスト・トゥ・4D手法では、複数のスコア蒸留サンプリング(SDS)技術を利用して、ビデオベース拡散モデル(DM)からの動作先行と、マルチビューDMからの幾何学的先行とを組み合わせて、4Dレンダリングを暗黙的にガイドしている。
しかし、これらの事前の違いは、最適化中に勾配方向と矛盾し、運動忠実度と幾何精度のトレードオフを引き起こし、モデルの整合に相当な最適化時間を必要とする。
本稿では,テキスト駆動型ガウススプラッティング (PLA4D) に対する \textbf{P}ixel-\textbf{L}evel \textbf{A}lignment を導入する。
PLA4Dはアンカー参照、すなわちテキスト生成ビデオを提供し、画素空間内の異なるDMによって条件付けられたレンダリングプロセスを調整する。
静的アライメントには,焦点アライメント法とガウス・メシュのコントラスト学習を導入し,焦点長を反復的に調整し,各時刻に明示的な幾何学的先行情報を提供する。
動的レベルでは、未知視点におけるポーズアライメントと動き継続性の両方を強制するために、モーションアライメント法とT-MVリファインメント法が採用され、ビュー間の固有の幾何学的整合性を確保する。
このような画素レベルのマルチDMアライメントにより、PLA4Dフレームワークは、幾何学的、運動的、意味的整合性に優れた4Dオブジェクトを生成することができる。
PLA4Dはオープンソースツールで完全に実装されており、高品質な4Dデジタルコンテンツ作成のための効率的でアクセスしやすいソリューションを提供する。
関連論文リスト
- Tex4D: Zero-shot 4D Scene Texturing with Video Diffusion Models [54.35214051961381]
3Dメッシュはコンピュータビジョンとグラフィックスにおいて、アニメーションの効率と映画、ゲーム、AR、VRにおける最小限のメモリ使用のために広く利用されている。
しかし、メッシュのための時間的一貫性と現実的なテクスチャを作成することは、プロのアーティストにとって労働集約的だ。
本稿では、メッシュ配列から固有の幾何学とビデオ拡散モデルを統合することで、一貫したテクスチャを生成する3Dテクスチャシーケンスを提案する。
論文 参考訳(メタデータ) (2024-10-14T17:59:59Z) - Trans4D: Realistic Geometry-Aware Transition for Compositional Text-to-4D Synthesis [60.853577108780414]
既存の4D生成方法は、ユーザフレンドリーな条件に基づいて高品質な4Dオブジェクトやシーンを生成することができる。
現実的な複雑なシーン遷移を可能にする新しいテキストから4D合成フレームワークであるTrans4Dを提案する。
実験では、Trans4Dは、4Dシーンを正確かつ高品質な遷移で生成する既存の最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2024-10-09T17:56:03Z) - BrightDreamer: Generic 3D Gaussian Generative Framework for Fast Text-to-3D Synthesis [9.376238965029819]
本稿ではBrightDreamerについて述べる。BrightDreamerは、汎用的で高速(77ms)なテキスト・ツー・3D生成を実現するエンドツーエンドのシングルステージ・アプローチである。
まず、変形形状とその新しい位置を予測するために、テキスト誘導形状変形(TSD)ネットワークを提案する。
次に、3次元オブジェクトの3次元表現を生成するための新しいテキスト誘導三平面発電機を設計する。
論文 参考訳(メタデータ) (2024-03-17T17:04:45Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
この4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
静的な3Dアセットとモノクロビデオシーケンスを4Dコンテンツ構築のキーコンポーネントとして同定する。
我々のパイプラインは条件付き4D生成を容易にし、ユーザーは幾何学(3Dアセット)と運動(眼球ビデオ)を指定できる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z) - Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed
Diffusion Models [94.07744207257653]
我々は、探索されていないテキストから4D設定に焦点をあて、動的にアニメーションされた3Dオブジェクトを合成する。
4次元オブジェクト最適化において,テキスト・ツー・イメージ,テキスト・ツー・ビデオ,および3次元認識型多視点拡散モデルを組み合わせてフィードバックを提供する。
論文 参考訳(メタデータ) (2023-12-21T11:41:02Z) - 4D-fy: Text-to-4D Generation Using Hybrid Score Distillation Sampling [91.99172731031206]
現在のテキストから4Dの手法は、シーンの外観の質、立体構造、動きの3方向のトレードオフに直面している。
本稿では,複数の事前学習拡散モデルからの監視信号をブレンドする交互最適化手法であるハイブリッドスコア蒸留法を提案する。
論文 参考訳(メタデータ) (2023-11-29T18:58:05Z) - Text-To-4D Dynamic Scene Generation [111.89517759596345]
テキスト記述から3次元動的シーンを生成するMAV3D(Make-A-Video3D)を提案する。
提案手法では, シーンの外観, 密度, 動きの整合性に最適化された4次元動的ニューラルラジアンス場(NeRF)を用いる。
提供されるテキストから出力されるダイナミックビデオは、任意のカメラの位置と角度から見ることができ、任意の3D環境に合成することができる。
論文 参考訳(メタデータ) (2023-01-26T18:14:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。