論文の概要: ViDAR: Video Diffusion-Aware 4D Reconstruction From Monocular Inputs
- arxiv url: http://arxiv.org/abs/2506.18792v1
- Date: Mon, 23 Jun 2025 16:01:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:37.074189
- Title: ViDAR: Video Diffusion-Aware 4D Reconstruction From Monocular Inputs
- Title(参考訳): ViDAR:モノクラー入力によるビデオ拡散を意識した4D再構成
- Authors: Michal Nazarczuk, Sibi Catley-Chandar, Thomas Tanay, Zhensong Zhang, Gregory Slabaugh, Eduardo Pérez-Pellitero,
- Abstract要約: 本稿では,新しい4D再構成フレームワークであるビデオ認識拡散再構成(ViDAR)を紹介する。
ViDARは、単分子の曖昧さによって導入された人工物を緩和しながら、きめ細かな外観の詳細を回復する。
極端な視点の変化を伴う挑戦的なベンチマークであるDyCheckの実験は、ViDARがすべての最先端ベースラインを上回っていることを示している。
- 参考スコア(独自算出の注目度): 7.3647304690955915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dynamic Novel View Synthesis aims to generate photorealistic views of moving subjects from arbitrary viewpoints. This task is particularly challenging when relying on monocular video, where disentangling structure from motion is ill-posed and supervision is scarce. We introduce Video Diffusion-Aware Reconstruction (ViDAR), a novel 4D reconstruction framework that leverages personalised diffusion models to synthesise a pseudo multi-view supervision signal for training a Gaussian splatting representation. By conditioning on scene-specific features, ViDAR recovers fine-grained appearance details while mitigating artefacts introduced by monocular ambiguity. To address the spatio-temporal inconsistency of diffusion-based supervision, we propose a diffusion-aware loss function and a camera pose optimisation strategy that aligns synthetic views with the underlying scene geometry. Experiments on DyCheck, a challenging benchmark with extreme viewpoint variation, show that ViDAR outperforms all state-of-the-art baselines in visual quality and geometric consistency. We further highlight ViDAR's strong improvement over baselines on dynamic regions and provide a new benchmark to compare performance in reconstructing motion-rich parts of the scene. Project page: https://vidar-4d.github.io
- Abstract(参考訳): 動的ノベルビュー合成は、任意の視点から移動対象の光リアルビューを生成することを目的としている。
この課題は、動きから遠ざかる構造が問題視され、監督が不十分なモノクロビデオに依存する場合、特に困難である。
擬似多視点監視信号の合成にパーソナライズされた拡散モデルを利用する新しい4次元再構成フレームワークであるビデオ拡散認識再構成(ViDAR)を導入する。
シーン特有の特徴を条件にすることで、ViDARはモノクロの曖昧さによって導入されたアーティファクトを緩和しながら、きめ細かな外観の詳細を回復する。
拡散に基づく監視の時空間的矛盾に対処するために,拡散認識損失関数とカメラポーズ最適化戦略を提案する。
極端な視点の変化を伴う挑戦的なベンチマークであるDyCheckの実験は、ViDARが視覚的品質と幾何学的整合性において、最先端のベースラインをすべて上回っていることを示している。
さらに、動的領域のベースラインに対するViDARの強い改善を強調し、シーンのモーションリッチな部分を再構成する際のパフォーマンスを比較するための新しいベンチマークを提供する。
プロジェクトページ:https://vidar-4d.github.io
関連論文リスト
- SpatialCrafter: Unleashing the Imagination of Video Diffusion Models for Scene Reconstruction from Limited Observations [42.69229582451846]
この作業は、スパースやシングルビューのインプットから3Dシーンを再構築する上での課題である。
SpatialCrafterは,ビデオ拡散モデルにおける豊富な知識を活用して,可算的な追加観測を生成するフレームワークである。
トレーニング可能なカメラエンコーダと、明示的な幾何学的制約に対するエピポーラアテンション機構により、精密なカメラ制御と3D整合性を実現する。
論文 参考訳(メタデータ) (2025-05-17T13:05:13Z) - Vivid4D: Improving 4D Reconstruction from Monocular Video by Video Inpainting [26.54811754399946]
そこで我々は,視線を増大させることにより4次元モノクロ映像合成を向上させる新しいアプローチであるVivid4Dを紹介した。
これは、観察されたビューを新たな視点に歪曲するビデオインペインティングタスクとして、ビュー増強を再構成する。
実験により,本手法はモノラルな4次元シーンの再現と完了を効果的に改善することが示された。
論文 参考訳(メタデータ) (2025-04-15T11:38:14Z) - Decompositional Neural Scene Reconstruction with Generative Diffusion Prior [64.71091831762214]
完全な形状と詳細なテクスチャを持つ3次元シーンの分解的再構成は、下流の応用に興味深い。
近年のアプローチでは、この問題に対処するために意味的あるいは幾何学的正則化が取り入れられているが、制約の少ない領域では著しく劣化している。
本稿では,SDS(Score Distillation Sampling)の形で拡散先行値を用いたDP-Reconを提案し,新しい視点下で個々の物体の神経表現を最適化する。
論文 参考訳(メタデータ) (2025-03-19T02:11:31Z) - MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。
以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-26T17:53:51Z) - DRSM: efficient neural 4d decomposition for dynamic reconstruction in
stationary monocular cameras [21.07910546072467]
モノクロカメラにおける動的シーンの4次元分解問題に対処するための新しい枠組みを提案する。
本フレームワークでは,分解された静的・動的特徴面を用いて4次元シーンを表現し,高密度光線キャスティングによる動的領域の学習を強調する。
論文 参考訳(メタデータ) (2024-02-01T16:38:51Z) - Diffusion Priors for Dynamic View Synthesis from Monocular Videos [59.42406064983643]
ダイナミックノベルビュー合成は、ビデオ内の視覚的コンテンツの時間的進化を捉えることを目的としている。
まず、ビデオフレーム上に予め訓練されたRGB-D拡散モデルをカスタマイズ手法を用いて微調整する。
動的および静的なニューラルレイディアンス場を含む4次元表現に、微調整されたモデルから知識を蒸留する。
論文 参考訳(メタデータ) (2024-01-10T23:26:41Z) - MoBluRF: Motion Deblurring Neural Radiance Fields for Blurry Monocular Video [25.964642223641057]
MoBluRFは、ぼやけたモノクロビデオのシャープ・テンポラル・ビューを合成するためのフレームワークである。
BRIの段階では、動的3Dシーンを再構成し、潜時シャープ線を予測するために使用されるベースレイを共同で初期化する。
MDDの段階では、ぼやけたモノクロビデオフレームに対して、Incrmental Latent Sharp-rays Prediction (ILSP) アプローチを導入する。
論文 参考訳(メタデータ) (2023-12-21T02:01:19Z) - Enhanced Stable View Synthesis [86.69338893753886]
本稿では,自由に動くカメラから撮影した画像から,新しいビュー合成を強化するアプローチを提案する。
導入されたアプローチは、正確な幾何学的足場とカメラのポーズの復元が困難な屋外シーンに焦点を当てている。
論文 参考訳(メタデータ) (2023-03-30T01:53:14Z) - Learning Dynamic View Synthesis With Few RGBD Cameras [60.36357774688289]
本稿では,RGBDカメラを用いて動的屋内シーンのフリー視点映像を合成することを提案する。
我々は、RGBDフレームから点雲を生成し、それをニューラル機能を介して、自由視点ビデオにレンダリングする。
そこで本研究では,未完成の深度を適応的に塗布して新規なビューを描画する,シンプルなRegional Depth-Inpaintingモジュールを提案する。
論文 参考訳(メタデータ) (2022-04-22T03:17:35Z) - Non-Rigid Neural Radiance Fields: Reconstruction and Novel View
Synthesis of a Dynamic Scene From Monocular Video [76.19076002661157]
Non-Rigid Neural Radiance Fields (NR-NeRF) は、一般的な非剛体動的シーンに対する再構成および新しいビュー合成手法である。
一つのコンシューマ級カメラでさえ、新しい仮想カメラビューからダイナミックシーンの洗練されたレンダリングを合成するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-12-22T18:46:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。