論文の概要: Controlling Space and Time with Diffusion Models
- arxiv url: http://arxiv.org/abs/2407.07860v2
- Date: Sun, 20 Apr 2025 04:48:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 13:32:52.848725
- Title: Controlling Space and Time with Diffusion Models
- Title(参考訳): 拡散モデルによる空間と時間制御
- Authors: Daniel Watson, Saurabh Saxena, Lala Li, Andrea Tagliasacchi, David J. Fleet,
- Abstract要約: 4次元新規ビュー合成(NVS)のためのケースド拡散モデルである4DiMを提案する。
我々は3D(カメラポーズ付き)、4D(目的+時間)、ビデオ(時間だがポーズなし)のデータを混合してトレーニングすることができる。
4DiMは、直感的なメートルスケールカメラポーズ制御を備えた最初のNVS方式である。
- 参考スコア(独自算出の注目度): 34.7002868116714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present 4DiM, a cascaded diffusion model for 4D novel view synthesis (NVS), supporting generation with arbitrary camera trajectories and timestamps, in natural scenes, conditioned on one or more images. With a novel architecture and sampling procedure, we enable training on a mixture of 3D (with camera pose), 4D (pose+time) and video (time but no pose) data, which greatly improves generalization to unseen images and camera pose trajectories over prior works that focus on limited domains (e.g., object centric). 4DiM is the first-ever NVS method with intuitive metric-scale camera pose control enabled by our novel calibration pipeline for structure-from-motion-posed data. Experiments demonstrate that 4DiM outperforms prior 3D NVS models both in terms of image fidelity and pose alignment, while also enabling the generation of scene dynamics. 4DiM provides a general framework for a variety of tasks including single-image-to-3D, two-image-to-video (interpolation and extrapolation), and pose-conditioned video-to-video translation, which we illustrate qualitatively on a variety of scenes. For an overview see https://4d-diffusion.github.io
- Abstract(参考訳): 4Dノベルビュー合成(NVS)のためのケースド拡散モデルである4DiMを提案する。
新規なアーキテクチャとサンプリング手法により、3D(カメラポーズ)、4D(ポジション+タイム)、ビデオ(ポーズなし)の混合データによるトレーニングが可能となり、限られた領域(例えばオブジェクト中心)に焦点をあてる以前の作業よりも、見えない画像への一般化とカメラのポーズトラジェクトリが大幅に向上する。
4DiMは,新しいキャリブレーションパイプラインにより,動きから推定したデータに対して,直感的な距離スケールのカメラポーズ制御が可能なNVS方式としては初めてである。
実験により、4DiMは画像の忠実度とポーズアライメントの両方において、以前の3次元NVSモデルよりも優れており、シーンダイナミクスの生成も可能であることが示された。
4DiMは、単一画像から3D、2画像から3D(補間と外挿)、ポーズ条件付きビデオからビデオへの翻訳など、様々なタスクのための一般的なフレームワークを提供する。
概要はhttps://4d-diffusion.github.ioを参照のこと。
関連論文リスト
- Can Video Diffusion Model Reconstruct 4D Geometry? [66.5454886982702]
Sora3Rは、カジュアルなビデオから4Dのポイントマップを推測するために、大きなダイナミックビデオ拡散モデルのリッチ・テンポラリなテンポラリなテンポラリな時間を利用する新しいフレームワークである。
実験により、Sora3Rはカメラのポーズと詳細なシーン形状の両方を確実に復元し、動的4D再構成のための最先端の手法と同等の性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-03-27T01:44:46Z) - Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency [49.875459658889355]
Free4Dは、単一の画像から4Dシーンを生成するためのチューニング不要のフレームワークである。
我々の重要な洞察は、一貫した4次元シーン表現のために、事前訓練された基礎モデルを蒸留することである。
結果の4D表現はリアルタイムで制御可能なレンダリングを可能にする。
論文 参考訳(メタデータ) (2025-03-26T17:59:44Z) - CamCtrl3D: Single-Image Scene Exploration with Precise 3D Camera Control [39.20528937415251]
本稿では,1枚の画像と所定のカメラ軌跡からシーンのフライスルー映像を生成する手法を提案する。
4つの手法を用いて,UNetデノイザをカメラ軌道上に配置する。
私たちは、シーン間のスケール一貫性のために、データセット内のカメラ位置を調整し、シーン探索モデルCamCtrl3Dをトレーニングし、最先端の結果を示します。
論文 参考訳(メタデータ) (2025-01-10T14:37:32Z) - GS-DiT: Advancing Video Generation with Pseudo 4D Gaussian Fields through Efficient Dense 3D Point Tracking [38.104532522698285]
ビデオ拡散変換器(DiT)を直接訓練して4Dコンテンツを制御するには、高価なマルチビュービデオが必要である。
モノクロ・ダイナミック・ノベル・ビュー・シンセサイザー (MDVS) に触発され, 擬似4次元ガウス場を映像生成に適用した。
プレトレーニング済みのDiTを微調整して、GS-DiTと呼ばれるレンダリングされたビデオのガイダンスに従ってビデオを生成する。
論文 参考訳(メタデータ) (2025-01-05T23:55:33Z) - Deblur4DGS: 4D Gaussian Splatting from Blurry Monocular Video [64.38566659338751]
Deblur4DGSという,ぼやけたモノクロビデオから高品質な4Dモデルを再構成するための,最初の4Dガウス分割フレームワークを提案する。
本稿では,多面的,多面的整合性,多面的,多面的,多面的な整合性を実現するために露光規則化を導入し,斬新な視点以外では,デブレア4DGSは,デブロアリング,フレーム合成,ビデオ安定化など,多面的な視点からぼやけた映像を改善するために応用できる。
論文 参考訳(メタデータ) (2024-12-09T12:02:11Z) - CAT4D: Create Anything in 4D with Multi-View Video Diffusion Models [98.03734318657848]
本研究では,モノクロ映像から4次元(ダイナミックな3D)シーンを生成するCAT4Dを提案する。
我々は、多様なデータセットの組み合わせに基づいて訓練された多視点ビデオ拡散モデルを活用して、新しいビュー合成を実現する。
新規なビュー合成と動的シーン再構成ベンチマークにおける競合性能を実証する。
論文 参考訳(メタデータ) (2024-11-27T18:57:16Z) - Self-Calibrating 4D Novel View Synthesis from Monocular Videos Using Gaussian Splatting [14.759265492381509]
本稿では,カメラパラメータの自己校正による高忠実度 4D GS シーン表現の学習手法を提案する。
3次元構造を頑健に表現する2次元点特徴の抽出を含む。
その結果,4次元新規ビュー合成における最先端手法の大幅な改善が示された。
論文 参考訳(メタデータ) (2024-06-03T06:52:35Z) - 4Diffusion: Multi-view Video Diffusion Model for 4D Generation [55.82208863521353]
現在の4D生成法は, 高度な拡散生成モデルの助けを借りて, 有意義な有効性を実現している。
モノクロビデオから空間的・時間的に一貫した4Dコンテンツを生成することを目的とした,新しい4D生成パイプライン,すなわち4Diffusionを提案する。
論文 参考訳(メタデータ) (2024-05-31T08:18:39Z) - Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。
ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。
提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文 参考訳(メタデータ) (2024-05-26T17:47:34Z) - Efficient4D: Fast Dynamic 3D Object Generation from a Single-view Video [42.10482273572879]
本稿では,効率的な4Dオブジェクト生成フレームワークであるEfficient4Dを提案する。
異なるカメラビューの下で高品質な時空一貫性の画像を生成し、ラベル付きデータとして使用する。
合成ビデオと実ビデオの両方の実験によると、Efficient4Dのスピードは10倍に向上している。
論文 参考訳(メタデータ) (2024-01-16T18:58:36Z) - 4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
textbf4DGenは、4Dコンテンツ作成のための新しいフレームワークである。
我々のパイプラインは、制御可能な4D生成を容易にし、ユーザがモノクロビデオで動きを指定したり、画像から映像への世代を適用できる。
既存のビデオから4Dのベースラインと比較すると,入力信号の忠実な再構成には優れた結果が得られる。
論文 参考訳(メタデータ) (2023-12-28T18:53:39Z) - Holoported Characters: Real-time Free-viewpoint Rendering of Humans from Sparse RGB Cameras [65.54875149514274]
一般のアパレルにおいて,人間俳優の高度にリアルなフリー視点映像をレンダリングするための最初のアプローチを提案する。
提案手法は,動作中のアクターの4つのカメラビューと,各3次元骨格ポーズのみを必要とする。
広い服装の俳優を扱い、さらに細かなダイナミックディテールを再現する。
論文 参考訳(メタデータ) (2023-12-12T16:45:52Z) - Consistent4D: Consistent 360{\deg} Dynamic Object Generation from
Monocular Video [15.621374353364468]
Consistent4Dは、モノクロビデオから4D動的オブジェクトを生成するための新しいアプローチである。
我々は、360度ダイナミックオブジェクト再構成を4次元生成問題として、退屈なマルチビューデータ収集とカメラキャリブレーションの必要性を排除した。
論文 参考訳(メタデータ) (2023-11-06T03:26:43Z) - Novel View Synthesis with Diffusion Models [56.55571338854636]
本稿では,3Dノベルビュー合成のための拡散モデルである3DiMを提案する。
単一のインプットビューを多くのビューで一貫したシャープな補完に変換することができる。
3DiMは、条件付けと呼ばれる新しい技術を使って、3D一貫性のある複数のビューを生成することができる。
論文 参考訳(メタデータ) (2022-10-06T16:59:56Z) - MetaPose: Fast 3D Pose from Multiple Views without 3D Supervision [72.5863451123577]
正確な3Dポーズとカメラ推定が可能なニューラルモデルをトレーニングする方法を示す。
本手法は,古典的バンドル調整と弱教師付き単分子3Dベースラインの両方に優れる。
論文 参考訳(メタデータ) (2021-08-10T18:39:56Z) - Temporal-Aware Self-Supervised Learning for 3D Hand Pose and Mesh
Estimation in Videos [32.12879364117658]
RGB画像から直接3Dハンドポーズを推定することは難しいが、注釈付き3Dポーズで深層モデルを訓練することで、近年着実に進歩している。
本稿では,RGB画像からの3Dポーズ推定モデルの訓練を行うためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-06T07:54:18Z) - V4D:4D Convolutional Neural Networks for Video-level Representation
Learning [58.548331848942865]
映像表現学習用3D CNNの多くはクリップベースであるため,映像時間進化は考慮していない。
4D畳み込みを伴う長距離表現をモデル化するために,ビデオレベル4Dコナールニューラルネットワーク(V4D)を提案する。
V4Dは、最近の3D CNNよりも大きなマージンで優れた結果を得る。
論文 参考訳(メタデータ) (2020-02-18T09:27:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。