Fugu-MT 論文翻訳(概要): Controlling Space and Time with Diffusion Models

論文の概要: Controlling Space and Time with Diffusion Models

arxiv url: http://arxiv.org/abs/2407.07860v1
Date: Wed, 10 Jul 2024 17:23:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-11 15:33:18.750598
Title: Controlling Space and Time with Diffusion Models
Title（参考訳）: 拡散モデルによる空間と時間制御
Authors: Daniel Watson, Saurabh Saxena, Lala Li, Andrea Tagliasacchi, David J. Fleet,
Abstract要約: 4次元新規ビュー合成(NVS)のためのケースド拡散モデルである4DiMを提案する。我々は3D(カメラポーズ付き)、4D(目的+時間)、ビデオ(時間だがポーズなし)データに関する共同トレーニングを提唱する。 4DiMは、パノラマ縫合の改善、ビデオ翻訳のためのポーズ付きビデオ、その他いくつかのタスクにも使用されている。
参考スコア（独自算出の注目度）: 34.7002868116714
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present 4DiM, a cascaded diffusion model for 4D novel view synthesis (NVS), conditioned on one or more images of a general scene, and a set of camera poses and timestamps. To overcome challenges due to limited availability of 4D training data, we advocate joint training on 3D (with camera pose), 4D (pose+time) and video (time but no pose) data and propose a new architecture that enables the same. We further advocate the calibration of SfM posed data using monocular metric depth estimators for metric scale camera control. For model evaluation, we introduce new metrics to enrich and overcome shortcomings of current evaluation schemes, demonstrating state-of-the-art results in both fidelity and pose control compared to existing diffusion models for 3D NVS, while at the same time adding the ability to handle temporal dynamics. 4DiM is also used for improved panorama stitching, pose-conditioned video to video translation, and several other tasks. For an overview see https://4d-diffusion.github.io
Abstract（参考訳）: 本稿では,4Dノベル・ビュー・シンセシス(NVS)のためのケースド拡散モデルである4DiMについて述べる。 4Dトレーニングデータの可用性の制限による課題を克服するため、3D(カメラポーズ付き)、4D(目的+時間)、ビデオ(時間だがポーズなし)のデータに対する共同トレーニングを提案し、これを実現する新しいアーキテクチャを提案する。さらに,SfM推定データのキャリブレーションを,一眼レフカメラ制御のための単眼メートル深度推定器を用いて行うことを提唱する。モデル評価には,従来の3次元NVSの拡散モデルと比較して,現状の評価手法の欠点を補足し克服するための新しい指標を導入するとともに,時間的ダイナミクスを扱う能力も追加する。 4DiMは、パノラマ縫合の改善、ビデオ翻訳のためのポーズ付きビデオ、その他いくつかのタスクにも使用されている。概要はhttps://4d-diffusion.github.ioを参照のこと。

関連論文リスト

4DVD: Cascaded Dense-view Video Diffusion Model for High-quality 4D Content Generation [23.361360623083943]
分離された方法で4Dコンテンツを生成するビデオ拡散モデルである4DVDを提案する。 4DVDをトレーニングするために、ベンチマークからD-averseと呼ばれる動的3Dデータセットを収集します。新規なビュー合成と4次元生成の両面での最先端性能を実証する実験を行った。
論文参考訳（メタデータ） (2025-08-06T14:08:36Z)
In-2-4D: Inbetweening from Two Single-View Images to 4D Generation [54.62824686338408]
最小限の入力設定からSplatingにおける生成4D(すなわち3D + Motion)のための新しい問題In-between2-4Dを提案する。動作中の物体の開始状態と終了状態を表す2つの画像が与えられた場合、我々のゴールは4Dで動きを生成・再構成することである。
論文参考訳（メタデータ） (2025-04-11T09:01:09Z)
Can Video Diffusion Model Reconstruct 4D Geometry? [66.5454886982702]
Sora3Rは、カジュアルなビデオから4Dのポイントマップを推測するために、大きなダイナミックビデオ拡散モデルのリッチ・テンポラリなテンポラリなテンポラリな時間を利用する新しいフレームワークである。実験により、Sora3Rはカメラのポーズと詳細なシーン形状の両方を確実に復元し、動的4D再構成のための最先端の手法と同等の性能を発揮することが示された。
論文参考訳（メタデータ） (2025-03-27T01:44:46Z)
Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency [49.875459658889355]
Free4Dは、単一の画像から4Dシーンを生成するためのチューニング不要のフレームワークである。我々の重要な洞察は、一貫した4次元シーン表現のために、事前訓練された基礎モデルを蒸留することである。結果の4D表現はリアルタイムで制御可能なレンダリングを可能にする。
論文参考訳（メタデータ） (2025-03-26T17:59:44Z)
CamCtrl3D: Single-Image Scene Exploration with Precise 3D Camera Control [39.20528937415251]
本稿では,1枚の画像と所定のカメラ軌跡からシーンのフライスルー映像を生成する手法を提案する。 4つの手法を用いて,UNetデノイザをカメラ軌道上に配置する。私たちは、シーン間のスケール一貫性のために、データセット内のカメラ位置を調整し、シーン探索モデルCamCtrl3Dをトレーニングし、最先端の結果を示します。
論文参考訳（メタデータ） (2025-01-10T14:37:32Z)
GS-DiT: Advancing Video Generation with Pseudo 4D Gaussian Fields through Efficient Dense 3D Point Tracking [38.104532522698285]
ビデオ拡散変換器(DiT)を直接訓練して4Dコンテンツを制御するには、高価なマルチビュービデオが必要である。モノクロ・ダイナミック・ノベル・ビュー・シンセサイザー (MDVS) に触発され, 擬似4次元ガウス場を映像生成に適用した。プレトレーニング済みのDiTを微調整して、GS-DiTと呼ばれるレンダリングされたビデオのガイダンスに従ってビデオを生成する。
論文参考訳（メタデータ） (2025-01-05T23:55:33Z)
Deblur4DGS: 4D Gaussian Splatting from Blurry Monocular Video [64.38566659338751]
Deblur4DGSという,ぼやけたモノクロビデオから高品質な4Dモデルを再構成するための,最初の4Dガウス分割フレームワークを提案する。本稿では,多面的,多面的整合性,多面的,多面的,多面的な整合性を実現するために露光規則化を導入し,斬新な視点以外では,デブレア4DGSは,デブロアリング,フレーム合成,ビデオ安定化など,多面的な視点からぼやけた映像を改善するために応用できる。
論文参考訳（メタデータ） (2024-12-09T12:02:11Z)
CAT4D: Create Anything in 4D with Multi-View Video Diffusion Models [98.03734318657848]
本研究では,モノクロ映像から4次元(ダイナミックな3D)シーンを生成するCAT4Dを提案する。我々は、多様なデータセットの組み合わせに基づいて訓練された多視点ビデオ拡散モデルを活用して、新しいビュー合成を実現する。新規なビュー合成と動的シーン再構成ベンチマークにおける競合性能を実証する。
論文参考訳（メタデータ） (2024-11-27T18:57:16Z)
Self-Calibrating 4D Novel View Synthesis from Monocular Videos Using Gaussian Splatting [14.759265492381509]
本稿では,カメラパラメータの自己校正による高忠実度 4D GS シーン表現の学習手法を提案する。 3次元構造を頑健に表現する2次元点特徴の抽出を含む。その結果,4次元新規ビュー合成における最先端手法の大幅な改善が示された。
論文参考訳（メタデータ） (2024-06-03T06:52:35Z)
4Diffusion: Multi-view Video Diffusion Model for 4D Generation [55.82208863521353]
現在の4D生成法は, 高度な拡散生成モデルの助けを借りて, 有意義な有効性を実現している。モノクロビデオから空間的・時間的に一貫した4Dコンテンツを生成することを目的とした,新しい4D生成パイプライン,すなわち4Diffusionを提案する。
論文参考訳（メタデータ） (2024-05-31T08:18:39Z)
Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文参考訳（メタデータ） (2024-05-26T17:47:34Z)
Efficient4D: Fast Dynamic 3D Object Generation from a Single-view Video [42.10482273572879]
本稿では,効率的な4Dオブジェクト生成フレームワークであるEfficient4Dを提案する。異なるカメラビューの下で高品質な時空一貫性の画像を生成し、ラベル付きデータとして使用する。合成ビデオと実ビデオの両方の実験によると、Efficient4Dのスピードは10倍に向上している。
論文参考訳（メタデータ） (2024-01-16T18:58:36Z)
4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
textbf4DGenは、4Dコンテンツ作成のための新しいフレームワークである。我々のパイプラインは、制御可能な4D生成を容易にし、ユーザがモノクロビデオで動きを指定したり、画像から映像への世代を適用できる。既存のビデオから4Dのベースラインと比較すると,入力信号の忠実な再構成には優れた結果が得られる。
論文参考訳（メタデータ） (2023-12-28T18:53:39Z)
Holoported Characters: Real-time Free-viewpoint Rendering of Humans from Sparse RGB Cameras [65.54875149514274]
一般のアパレルにおいて,人間俳優の高度にリアルなフリー視点映像をレンダリングするための最初のアプローチを提案する。提案手法は,動作中のアクターの4つのカメラビューと,各3次元骨格ポーズのみを必要とする。広い服装の俳優を扱い、さらに細かなダイナミックディテールを再現する。
論文参考訳（メタデータ） (2023-12-12T16:45:52Z)
Consistent4D: Consistent 360{\deg} Dynamic Object Generation from Monocular Video [15.621374353364468]
Consistent4Dは、モノクロビデオから4D動的オブジェクトを生成するための新しいアプローチである。我々は、360度ダイナミックオブジェクト再構成を4次元生成問題として、退屈なマルチビューデータ収集とカメラキャリブレーションの必要性を排除した。
論文参考訳（メタデータ） (2023-11-06T03:26:43Z)
Novel View Synthesis with Diffusion Models [56.55571338854636]
本稿では,3Dノベルビュー合成のための拡散モデルである3DiMを提案する。単一のインプットビューを多くのビューで一貫したシャープな補完に変換することができる。 3DiMは、条件付けと呼ばれる新しい技術を使って、3D一貫性のある複数のビューを生成することができる。
論文参考訳（メタデータ） (2022-10-06T16:59:56Z)
MetaPose: Fast 3D Pose from Multiple Views without 3D Supervision [72.5863451123577]
正確な3Dポーズとカメラ推定が可能なニューラルモデルをトレーニングする方法を示す。本手法は,古典的バンドル調整と弱教師付き単分子3Dベースラインの両方に優れる。
論文参考訳（メタデータ） (2021-08-10T18:39:56Z)
Temporal-Aware Self-Supervised Learning for 3D Hand Pose and Mesh Estimation in Videos [32.12879364117658]
RGB画像から直接3Dハンドポーズを推定することは難しいが、注釈付き3Dポーズで深層モデルを訓練することで、近年着実に進歩している。本稿では,RGB画像からの3Dポーズ推定モデルの訓練を行うためのフレームワークを提案する。
論文参考訳（メタデータ） (2020-12-06T07:54:18Z)
V4D:4D Convolutional Neural Networks for Video-level Representation Learning [58.548331848942865]
映像表現学習用3D CNNの多くはクリップベースであるため,映像時間進化は考慮していない。 4D畳み込みを伴う長距離表現をモデル化するために,ビデオレベル4Dコナールニューラルネットワーク(V4D)を提案する。 V4Dは、最近の3D CNNよりも大きなマージンで優れた結果を得る。
論文参考訳（メタデータ） (2020-02-18T09:27:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。