論文の概要: Consistent4D: Consistent 360{\deg} Dynamic Object Generation from
Monocular Video
- arxiv url: http://arxiv.org/abs/2311.02848v1
- Date: Mon, 6 Nov 2023 03:26:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 15:40:22.137267
- Title: Consistent4D: Consistent 360{\deg} Dynamic Object Generation from
Monocular Video
- Title(参考訳): consistent4d: 単眼ビデオからの360{\deg}動的オブジェクト生成の一貫性
- Authors: Yanqin Jiang, Li Zhang, Jin Gao, Weimin Hu, Yao Yao
- Abstract要約: Consistent4Dは、モノクロビデオから4D動的オブジェクトを生成するための新しいアプローチである。
我々は、360度ダイナミックオブジェクト再構成を4次元生成問題として、退屈なマルチビューデータ収集とカメラキャリブレーションの必要性を排除した。
- 参考スコア(独自算出の注目度): 15.621374353364468
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present Consistent4D, a novel approach for generating 4D
dynamic objects from uncalibrated monocular videos. Uniquely, we cast the
360-degree dynamic object reconstruction as a 4D generation problem,
eliminating the need for tedious multi-view data collection and camera
calibration. This is achieved by leveraging the object-level 3D-aware image
diffusion model as the primary supervision signal for training Dynamic Neural
Radiance Fields (DyNeRF). Specifically, we propose a Cascade DyNeRF to
facilitate stable convergence and temporal continuity under the supervision
signal which is discrete along the time axis. To achieve spatial and temporal
consistency, we further introduce an Interpolation-driven Consistency Loss. It
is optimized by minimizing the discrepancy between rendered frames from DyNeRF
and interpolated frames from a pre-trained video interpolation model. Extensive
experiments show that our Consistent4D can perform competitively to prior art
alternatives, opening up new possibilities for 4D dynamic object generation
from monocular videos, whilst also demonstrating advantage for conventional
text-to-3D generation tasks. Our project page is
https://consistent4d.github.io/.
- Abstract(参考訳): 本稿では,モノクロビデオから4次元動的オブジェクトを生成する新しい手法であるConsistent4Dを提案する。
同様に,360度動的オブジェクト再構成を4次元生成問題とし,退屈なマルチビューデータ収集やカメラキャリブレーションの必要性を排除した。
これは、DyNeRF(Dynamic Neural Radiance Fields)をトレーニングするための第一監視信号として、オブジェクトレベル3D対応画像拡散モデルを活用することで達成される。
具体的には,時間軸に沿って離散的な監視信号の下での安定収束と時間継続を容易にするカスケードDyNeRFを提案する。
空間的・時間的整合性を達成するために,補間駆動型一貫性損失を導入する。
予め訓練されたビデオ補間モデルからDyNeRFと補間フレームとの差を最小化して最適化する。
広汎な実験により、Consistent4Dは先行技術と競合し、モノクラービデオから4D動的オブジェクト生成の新たな可能性を開くとともに、従来のテキストから3D生成タスクの利点も示している。
プロジェクトページはhttps:// consistent4d.github.io/です。
関連論文リスト
- Fast Dynamic 3D Object Generation from a Single-view Video [45.996494048942075]
本稿では,効率的な4Dオブジェクト生成フレームワークであるEfficient4Dを提案する。
異なるカメラビューの下で高品質な時空一貫性の画像を生成し、ラベル付きデータとして使用する。
合成ビデオと実ビデオの実験によると、Efficient4Dのスピードは10倍に向上している。
論文 参考訳(メタデータ) (2024-01-16T18:58:36Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [126.75952654863667]
この4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
静的な3Dアセットとモノクロビデオシーケンスを4Dコンテンツ構築のキーコンポーネントとして同定する。
我々のパイプラインは条件付き4D生成を容易にし、ユーザーは幾何学(3Dアセット)と運動(眼球ビデオ)を指定できる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z) - Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed
Diffusion Models [94.07744207257653]
我々は、探索されていないテキストから4D設定に焦点をあて、動的にアニメーションされた3Dオブジェクトを合成する。
4次元オブジェクト最適化において,テキスト・ツー・イメージ,テキスト・ツー・ビデオ,および3次元認識型多視点拡散モデルを組み合わせてフィードバックを提供する。
論文 参考訳(メタデータ) (2023-12-21T11:41:02Z) - AnimatableDreamer: Text-Guided Non-rigid 3D Model Generation and
Reconstruction with Canonical Score Distillation [24.765210852545426]
モノクロ映像から多種多様な非剛体オブジェクトを生成できるテキストから4D生成フレームワークを提案する。
AnimatableDreamerは、Canonical Score Distillationと呼ばれる新しい最適化設計を備えています。
本実験は,モノクロ映像から高柔軟性テキスト誘導型3Dモデルを生成する際の本手法の有効性を実証するものである。
論文 参考訳(メタデータ) (2023-12-06T14:13:54Z) - Real-time Photorealistic Dynamic Scene Representation and Rendering with
4D Gaussian Splatting [8.078460597825142]
2次元画像から動的3Dシーンを再構成し、時間とともに多様なビューを生成することは、シーンの複雑さと時間的ダイナミクスのために困難である。
本研究では、4次元プリミティブの集合を明示的な幾何学と外観モデルを用いて最適化することにより、動的シーンの基本的な時間的レンダリング量を近似することを提案する。
我々のモデルは概念的に単純であり、異方性楕円によってパラメータ化され、空間と時間で任意に回転する4次元ガウスのパラメータと、4次元球面調和係数で表されるビュー依存および時間進化の外観から構成される。
論文 参考訳(メタデータ) (2023-10-16T17:57:43Z) - DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。
マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文 参考訳(メタデータ) (2022-12-15T14:18:47Z) - NeRFPlayer: A Streamable Dynamic Scene Representation with Decomposed
Neural Radiance Fields [99.57774680640581]
本稿では、高速な再構成、コンパクトなモデリング、およびストリーム可能なレンダリングが可能な効率的なフレームワークを提案する。
本稿では, 時間特性に応じて4次元空間を分解することを提案する。4次元空間の点は, 静的, 変形, および新しい領域の3つのカテゴリに属する確率に関連付けられている。
論文 参考訳(メタデータ) (2022-10-28T07:11:05Z) - V4D:4D Convolutional Neural Networks for Video-level Representation
Learning [58.548331848942865]
映像表現学習用3D CNNの多くはクリップベースであるため,映像時間進化は考慮していない。
4D畳み込みを伴う長距離表現をモデル化するために,ビデオレベル4Dコナールニューラルネットワーク(V4D)を提案する。
V4Dは、最近の3D CNNよりも大きなマージンで優れた結果を得る。
論文 参考訳(メタデータ) (2020-02-18T09:27:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。