論文の概要: GRVS: a Generalizable and Recurrent Approach to Monocular Dynamic View Synthesis
- arxiv url: http://arxiv.org/abs/2603.29734v1
- Date: Tue, 31 Mar 2026 13:35:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.683576
- Title: GRVS: a Generalizable and Recurrent Approach to Monocular Dynamic View Synthesis
- Title(参考訳): GRVS:単分子動的ビュー合成への一般化可能かつ反復的アプローチ
- Authors: Thomas Tanay, Mohammed Brahimi, Michal Nazarczuk, Qingwen Zhang, Sibi Catley-Chandar, Arthur Moreau, Zhensong Zhang, Eduardo Pérez-Pellitero,
- Abstract要約: 動的入力にフレームワークを適用することにより、静的な新規ビュー合成のための一般化可能なモデルの成功の上に構築する。
本研究では,(1)入力と対象映像の非有界かつ非同期なマッピングを可能にするリカレントループと,(2)動的入力による平面スイープの効率的な利用と,カメラやシーンの動きのアンタングル化という2つの重要な要素を持つ新しいモデルを提案する。
本モデルでは,静的領域と動的領域をまたいだ微細な幾何学的詳細を再構築するための2つの拡散に基づくアプローチと同様に,ガウススプラッティングに基づくシーン特異的アプローチよりも優れる。
- 参考スコア(独自算出の注目度): 22.218537156941604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthesizing novel views from monocular videos of dynamic scenes remains a challenging problem. Scene-specific methods that optimize 4D representations with explicit motion priors often break down in highly dynamic regions where multi-view information is hard to exploit. Diffusion-based approaches that integrate camera control into large pre-trained models can produce visually plausible videos but frequently suffer from geometric inconsistencies across both static and dynamic areas. Both families of methods also require substantial computational resources. Building on the success of generalizable models for static novel view synthesis, we adapt the framework to dynamic inputs and propose a new model with two key components: (1) a recurrent loop that enables unbounded and asynchronous mapping between input and target videos and (2) an efficient use of plane sweeps over dynamic inputs to disentangle camera and scene motion, and achieve fine-grained, six-degrees-of-freedom camera controls. We train and evaluate our model on the UCSD dataset and on Kubric-4D-dyn, a new monocular dynamic dataset featuring longer, higher resolution sequences with more complex scene dynamics than existing alternatives. Our model outperforms four Gaussian Splatting-based scene-specific approaches, as well as two diffusion-based approaches in reconstructing fine-grained geometric details across both static and dynamic regions.
- Abstract(参考訳): ダイナミックシーンのモノクロビデオから新しいビューを合成することは、依然として難しい問題である。
4次元表現を明示的な動きで最適化するシーン特化手法は、多視点情報の利用が難しい非常にダイナミックな領域でしばしば分解される。
カメラ制御を大規模な事前学習モデルに統合する拡散ベースのアプローチは、視覚的に可視なビデオを生成することができるが、静的領域と動的領域の両方で幾何学的不整合に悩まされることが多い。
どちらの手法もかなりの計算資源を必要とする。
静的な新規ビュー合成のための一般化可能なモデルの成功に基づいて,フレームワークを動的入力に適用し,(1)入力と対象ビデオの非有界かつ非同期なマッピングを可能にするリカレントループ,(2)動的入力による平面スイープの効率的な利用,および6自由度カメラ制御を実現する。
我々は、UCSDデータセットとKubric-4D-dynで、既存の代替品よりも複雑なシーンダイナミックスを持つ、より長く高解像度なシーケンスを特徴とする新しい単分子動的データセットをトレーニングし、評価する。
本モデルでは,静的領域と動的領域をまたいだ微細な幾何学的詳細を再構築するための2つの拡散に基づくアプローチと同様に,ガウススプラッティングに基づくシーン特異的アプローチよりも優れる。
関連論文リスト
- SV-GS: Sparse View 4D Reconstruction with Skeleton-Driven Gaussian Splatting [19.12278036176021]
SV-GSは変形モデルと物体の動きを同時に推定するフレームワークである。
提案手法は,PSNRの34%までのスパース観測下での既存手法よりも優れていた。
論文 参考訳(メタデータ) (2026-01-01T09:53:03Z) - 4D3R: Motion-Aware Neural Reconstruction and Rendering of Dynamic Scenes from Monocular Videos [52.89084603734664]
静的および動的コンポーネントを2段階のアプローチで分離する,ポーズフリーな動的ニューラルネットワークレンダリングフレームワークである4D3Rを提案する。
提案手法は最先端手法よりも最大1.8dBPSNRの改善を実現する。
論文 参考訳(メタデータ) (2025-11-07T13:25:50Z) - LocalDyGS: Multi-view Global Dynamic Scene Modeling via Adaptive Local Implicit Feature Decoupling [33.71658540929536]
LocalDyGSは、任意の視点でマルチビューインプットから動的ビデオをモデル化する新しい手法である。
提案手法は, 最先端(SOTA)法と比較して, 各種細粒度データセットと競合する。
論文 参考訳(メタデータ) (2025-07-03T06:50:33Z) - PartRM: Modeling Part-Level Dynamics with Large Cross-State Reconstruction Model [23.768571323272152]
PartRMは、静的オブジェクトの多視点画像から外観、幾何学、部分レベルの動きを同時にモデル化する新しい4D再構成フレームワークである。
我々はPartDrag-4Dデータセットを導入し、20,000以上の状態にまたがる部分レベルのダイナミクスを多視点で観察する。
実験結果から,PartRMはロボット工学の操作作業に応用できる部分レベルの動作学習において,新たな最先端技術を確立していることがわかった。
論文 参考訳(メタデータ) (2025-03-25T17:59:58Z) - 4D Gaussian Splatting: Modeling Dynamic Scenes with Native 4D Primitives [115.67081491747943]
動的3Dシーン表現と新しいビュー合成はAR/VRおよびメタバースアプリケーションの実現に不可欠である。
我々は,その基礎となる4次元体積を近似として,時間変化の異なる3次元シーンの再構成を再構成する。
ストレージのボトルネックに対処するため、メモリフットプリントを効果的に削減するいくつかのコンパクトなバリエーションを導出する。
論文 参考訳(メタデータ) (2024-12-30T05:30:26Z) - Event-boosted Deformable 3D Gaussians for Dynamic Scene Reconstruction [50.873820265165975]
本稿では,高時間分解能連続運動データと動的シーン再構成のための変形可能な3D-GSを併用したイベントカメラについて紹介する。
本稿では、3次元再構成としきい値モデリングの両方を大幅に改善する相互強化プロセスを作成するGS-Thresholdジョイントモデリング戦略を提案する。
提案手法は,合成および実世界の動的シーンを用いた最初のイベント包摂型4Dベンチマークであり,その上で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-11-25T08:23:38Z) - Shape of Motion: 4D Reconstruction from a Single Video [42.42669078777769]
本稿では,世界座標フレーム内の3次元運動軌跡を明示的かつ永続的に特徴付ける,ジェネリックダイナミックシーンの再構築手法を提案する。
まず,コンパクトなSE(3)モーションベースでシーンの動きを表現することで,3次元動作の低次元構造を利用する。
第2に,単眼深度マップや長距離2Dトラックなどの既成データ駆動の先行データを利用して,これらのノイズを効果的に処理する方法を考案する。
論文 参考訳(メタデータ) (2024-07-18T17:59:08Z) - Diffusion Priors for Dynamic View Synthesis from Monocular Videos [59.42406064983643]
ダイナミックノベルビュー合成は、ビデオ内の視覚的コンテンツの時間的進化を捉えることを目的としている。
まず、ビデオフレーム上に予め訓練されたRGB-D拡散モデルをカスタマイズ手法を用いて微調整する。
動的および静的なニューラルレイディアンス場を含む4次元表現に、微調整されたモデルから知識を蒸留する。
論文 参考訳(メタデータ) (2024-01-10T23:26:41Z) - MoCo-Flow: Neural Motion Consensus Flow for Dynamic Humans in Stationary
Monocular Cameras [98.40768911788854]
4次元連続時間変動関数を用いて動的シーンをモデル化する表現であるMoCo-Flowを紹介する。
私たちの研究の中心には、運動フロー上の運動コンセンサス正規化によって制約される、新しい最適化の定式化がある。
複雑度の異なる人間の動きを含む複数のデータセット上でMoCo-Flowを広範囲に評価した。
論文 参考訳(メタデータ) (2021-06-08T16:03:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。