Fugu-MT 論文翻訳(概要): CAT4D: Create Anything in 4D with Multi-View Video Diffusion Models

論文の概要: CAT4D: Create Anything in 4D with Multi-View Video Diffusion Models

arxiv url: http://arxiv.org/abs/2411.18613v2
Date: Wed, 18 Dec 2024 21:21:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-20 16:30:38.133743
Title: CAT4D: Create Anything in 4D with Multi-View Video Diffusion Models
Title（参考訳）: CAT4D:マルチビュービデオ拡散モデルで4Dで何かを作る
Authors: Rundi Wu, Ruiqi Gao, Ben Poole, Alex Trevithick, Changxi Zheng, Jonathan T. Barron, Aleksander Holynski,
Abstract要約: 本研究では,モノクロ映像から4次元(ダイナミックな3D)シーンを生成するCAT4Dを提案する。我々は、多様なデータセットの組み合わせに基づいて訓練された多視点ビデオ拡散モデルを活用して、新しいビュー合成を実現する。新規なビュー合成と動的シーン再構成ベンチマークにおける競合性能を実証する。
参考スコア（独自算出の注目度）: 98.03734318657848
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present CAT4D, a method for creating 4D (dynamic 3D) scenes from monocular video. CAT4D leverages a multi-view video diffusion model trained on a diverse combination of datasets to enable novel view synthesis at any specified camera poses and timestamps. Combined with a novel sampling approach, this model can transform a single monocular video into a multi-view video, enabling robust 4D reconstruction via optimization of a deformable 3D Gaussian representation. We demonstrate competitive performance on novel view synthesis and dynamic scene reconstruction benchmarks, and highlight the creative capabilities for 4D scene generation from real or generated videos. See our project page for results and interactive demos: https://cat-4d.github.io/.
Abstract（参考訳）: 本研究では,モノクロ映像から4次元(ダイナミックな3D)シーンを生成するCAT4Dを提案する。 CAT4Dは、データセットの多様な組み合わせに基づいてトレーニングされた多視点ビデオ拡散モデルを利用して、特定のカメラポーズやタイムスタンプで新しいビュー合成を可能にする。このモデルは、新しいサンプリング手法と組み合わせて、単一の単眼映像を多視点ビデオに変換することができ、変形可能な3Dガウス表現の最適化による堅牢な4D再構成を可能にする。新規なビュー合成と動的シーン再構成ベンチマークの競争性能を実証し、実または生成されたビデオから4Dシーンを生成する創造性を強調した。結果とインタラクティブなデモについては、プロジェクトページを参照してください。

関連論文リスト

Diffuman4D: 4D Consistent Human View Synthesis from Sparse-View Videos with Spatio-Temporal Diffusion Models [83.76517697509156]
本稿では、疎視映像を入力として高忠実度視点合成の課題に対処する。本研究では, 4次元拡散モデルの視時整合性を高めるために, 反復的スライディング・デノナイジング法を提案する。提案手法は,高品質で一貫したノベルビュー映像を合成し,既存の手法を大幅に上回っている。
論文参考訳（メタデータ） (2025-07-17T17:59:17Z)
SV4D: Dynamic 3D Content Generation with Multi-Frame and Multi-View Consistency [37.96042037188354]
本稿では,多フレーム・多視点一貫した動的3Dコンテンツ生成のための遅延ビデオ拡散モデルであるStable Video 4D(SV4D)を提案する。
論文参考訳（メタデータ） (2024-07-24T17:59:43Z)
Animate3D: Animating Any 3D Model with Multi-view Video Diffusion [47.05131487114018]
Animate3Dは静的な3Dモデルをアニメーションするための新しいフレームワークである。本研究では,3Dオブジェクトのアニメーション化に多視点ビデオ拡散プリミティブを活用するために,再構成と4Dスコア蒸留サンプリング(4D-SDS)を組み合わせたフレームワークを提案する。
論文参考訳（メタデータ） (2024-07-16T05:35:57Z)
Controlling Space and Time with Diffusion Models [34.7002868116714]
4次元新規ビュー合成(NVS)のためのケースド拡散モデルである4DiMを提案する。我々は3D(カメラポーズ付き)、4D(目的+時間)、ビデオ(時間だがポーズなし)のデータを混合してトレーニングすることができる。 4DiMは、直感的なメートルスケールカメラポーズ制御を備えた最初のNVS方式である。
論文参考訳（メタデータ） (2024-07-10T17:23:33Z)
Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文参考訳（メタデータ） (2024-05-26T17:47:34Z)
CAT3D: Create Anything in 3D with Multi-View Diffusion Models [87.80820708758317]
CAT3D(CAT3D)は,この実世界のキャプチャプロセスを多視点拡散モデルでシミュレートし,任意のものを3Dで作成する手法である。 CAT3Dは1分で3Dシーン全体を作成できる。
論文参考訳（メタデータ） (2024-05-16T17:59:05Z)
Diffusion$^2$: Dynamic 3D Content Generation via Score Composition of Video and Multi-view Diffusion Models [6.738732514502613]
Diffusion$2$は動的3Dコンテンツ作成のための新しいフレームワークである。 3次元モデルからの幾何的一貫性と時間的滑らかさに関する知識を精査し、密集した多視点画像を直接サンプリングする。非常にシームレスで一貫した4Dアセットを生成する上で,提案手法の有効性を示す実験を行った。
論文参考訳（メタデータ） (2024-04-02T17:58:03Z)
Efficient4D: Fast Dynamic 3D Object Generation from a Single-view Video [42.10482273572879]
本稿では,効率的な4Dオブジェクト生成フレームワークであるEfficient4Dを提案する。異なるカメラビューの下で高品質な時空一貫性の画像を生成し、ラベル付きデータとして使用する。合成ビデオと実ビデオの両方の実験によると、Efficient4Dのスピードは10倍に向上している。
論文参考訳（メタデータ） (2024-01-16T18:58:36Z)
4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
textbf4DGenは、4Dコンテンツ作成のための新しいフレームワークである。我々のパイプラインは、制御可能な4D生成を容易にし、ユーザがモノクロビデオで動きを指定したり、画像から映像への世代を適用できる。既存のビデオから4Dのベースラインと比較すると,入力信号の忠実な再構成には優れた結果が得られる。
論文参考訳（メタデータ） (2023-12-28T18:53:39Z)
Align Your Gaussians: Text-to-4D with Dynamic 3D Gaussians and Composed Diffusion Models [94.07744207257653]
我々は、探索されていないテキストから4D設定に焦点をあて、動的にアニメーションされた3Dオブジェクトを合成する。 4次元オブジェクト最適化において,テキスト・ツー・イメージ,テキスト・ツー・ビデオ,および3次元認識型多視点拡散モデルを組み合わせてフィードバックを提供する。
論文参考訳（メタデータ） (2023-12-21T11:41:02Z)
Text-To-4D Dynamic Scene Generation [111.89517759596345]
テキスト記述から3次元動的シーンを生成するMAV3D(Make-A-Video3D)を提案する。提案手法では, シーンの外観, 密度, 動きの整合性に最適化された4次元動的ニューラルラジアンス場(NeRF)を用いる。提供されるテキストから出力されるダイナミックビデオは、任意のカメラの位置と角度から見ることができ、任意の3D環境に合成することができる。
論文参考訳（メタデータ） (2023-01-26T18:14:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。