論文の概要: Fast Dynamic 3D Object Generation from a Single-view Video
- arxiv url: http://arxiv.org/abs/2401.08742v1
- Date: Tue, 16 Jan 2024 18:58:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 17:59:44.323013
- Title: Fast Dynamic 3D Object Generation from a Single-view Video
- Title(参考訳): シングルビュービデオからの高速動的3dオブジェクト生成
- Authors: Zijie Pan, Zeyu Yang, Xiatian Zhu, Li Zhang
- Abstract要約: 本稿では,効率的な4Dオブジェクト生成フレームワークであるEfficient4Dを提案する。
異なるカメラビューの下で高品質な時空一貫性の画像を生成し、ラベル付きデータとして使用する。
合成ビデオと実ビデオの実験によると、Efficient4Dのスピードは10倍に向上している。
- 参考スコア(独自算出の注目度): 45.996494048942075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating dynamic three-dimensional (3D) object from a single-view video is
challenging due to the lack of 4D labeled data. Existing methods extend
text-to-3D pipelines by transferring off-the-shelf image generation models such
as score distillation sampling, but they are slow and expensive to scale (e.g.,
150 minutes per object) due to the need for back-propagating the
information-limited supervision signals through a large pretrained model. To
address this limitation, we propose an efficient video-to-4D object generation
framework called Efficient4D. It generates high-quality spacetime-consistent
images under different camera views, and then uses them as labeled data to
directly train a novel 4D Gaussian splatting model with explicit point cloud
geometry, enabling real-time rendering under continuous camera trajectories.
Extensive experiments on synthetic and real videos show that Efficient4D offers
a remarkable 10-fold increase in speed when compared to prior art alternatives
while preserving the same level of innovative view synthesis quality. For
example, Efficient4D takes only 14 minutes to model a dynamic object.
- Abstract(参考訳): 4dラベル付きデータがないため、シングルビュービデオから動的3次元オブジェクトを生成するのは困難である。
既存の方法では、スコア蒸留サンプリングなどのオフ・ザ・シェルフ画像生成モデルを転送することでテキストから3Dパイプラインを拡張するが、大きな事前訓練されたモデルを通して情報制限された監視信号のバックプロパゲートを必要とするため、遅くてコストがかかる(例えば、1オブジェクトあたり150分)。
この制限に対処するため,Efficient4Dと呼ばれる効率的な4Dオブジェクト生成フレームワークを提案する。
異なるカメラビューの下で高品質な時空一貫性画像を生成し、ラベル付きデータとして使用して、明示的なポイントクラウド幾何学を持つ新しい4Dガウススプラッティングモデルをトレーニングし、連続カメラ軌道下でリアルタイムレンダリングを可能にする。
合成ビデオと実写ビデオの広範囲な実験により、efficiant4dは、同じレベルの革新的なビュー合成品質を維持しながら、先行技術よりも10倍の速度向上をもたらすことが示されている。
例えば、Efficient4Dは動的オブジェクトをモデル化するのにわずか14分しかかからない。
関連論文リスト
- 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [126.75952654863667]
この4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
静的な3Dアセットとモノクロビデオシーケンスを4Dコンテンツ構築のキーコンポーネントとして同定する。
我々のパイプラインは条件付き4D生成を容易にし、ユーザーは幾何学(3Dアセット)と運動(眼球ビデオ)を指定できる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z) - Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed
Diffusion Models [94.07744207257653]
我々は、探索されていないテキストから4D設定に焦点をあて、動的にアニメーションされた3Dオブジェクトを合成する。
4次元オブジェクト最適化において,テキスト・ツー・イメージ,テキスト・ツー・ビデオ,および3次元認識型多視点拡散モデルを組み合わせてフィードバックを提供する。
論文 参考訳(メタデータ) (2023-12-21T11:41:02Z) - 4D-fy: Text-to-4D Generation Using Hybrid Score Distillation Sampling [95.05258491077785]
現在のテキストから4Dの手法は、シーンの外観の質、立体構造、動きの3方向のトレードオフに直面している。
本稿では,複数の事前学習拡散モデルからの監視信号をブレンドする交互最適化手法であるハイブリッドスコア蒸留法を提案する。
論文 参考訳(メタデータ) (2023-11-29T18:58:05Z) - Consistent4D: Consistent 360{\deg} Dynamic Object Generation from
Monocular Video [15.621374353364468]
Consistent4Dは、モノクロビデオから4D動的オブジェクトを生成するための新しいアプローチである。
我々は、360度ダイナミックオブジェクト再構成を4次元生成問題として、退屈なマルチビューデータ収集とカメラキャリブレーションの必要性を排除した。
論文 参考訳(メタデータ) (2023-11-06T03:26:43Z) - Text-To-4D Dynamic Scene Generation [111.89517759596345]
テキスト記述から3次元動的シーンを生成するMAV3D(Make-A-Video3D)を提案する。
提案手法では, シーンの外観, 密度, 動きの整合性に最適化された4次元動的ニューラルラジアンス場(NeRF)を用いる。
提供されるテキストから出力されるダイナミックビデオは、任意のカメラの位置と角度から見ることができ、任意の3D環境に合成することができる。
論文 参考訳(メタデータ) (2023-01-26T18:14:32Z) - Tensor4D : Efficient Neural 4D Decomposition for High-fidelity Dynamic
Reconstruction and Rendering [31.928844354349117]
動的シーンに対する効率的な4次元テンソル分解法を提案する。
本手法は,スパースビューカメラや単眼カメラから高品質な動的再構成とレンダリングを実現することができることを示す。
コードとデータセットはatliuyebin.com/tensor4d-tensor4d.htmlでリリースされる。
論文 参考訳(メタデータ) (2022-11-21T16:04:45Z) - V4D:4D Convolutional Neural Networks for Video-level Representation
Learning [58.548331848942865]
映像表現学習用3D CNNの多くはクリップベースであるため,映像時間進化は考慮していない。
4D畳み込みを伴う長距離表現をモデル化するために,ビデオレベル4Dコナールニューラルネットワーク(V4D)を提案する。
V4Dは、最近の3D CNNよりも大きなマージンで優れた結果を得る。
論文 参考訳(メタデータ) (2020-02-18T09:27:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。