Fugu-MT 論文翻訳(概要): Decoupling Dynamic Monocular Videos for Dynamic View Synthesis

論文の概要: Decoupling Dynamic Monocular Videos for Dynamic View Synthesis

arxiv url: http://arxiv.org/abs/2304.01716v3
Date: Tue, 21 Nov 2023 12:05:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-23 05:43:41.854541
Title: Decoupling Dynamic Monocular Videos for Dynamic View Synthesis
Title（参考訳）: ダイナミックビュー合成のための動的単眼映像の分離
Authors: Meng You and Junhui Hou
Abstract要約: 動的モノクロビデオからの動的ビュー合成の課題を教師なしで解決する。具体的には、動的物体の運動を物体の動きとカメラの動きに分離し、教師なし表面の整合性およびパッチベースのマルチビュー制約によって規則化する。
参考スコア（独自算出の注目度）: 60.171882970835625
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: The challenge of dynamic view synthesis from dynamic monocular videos, i.e., synthesizing novel views for free viewpoints given a monocular video of a dynamic scene captured by a moving camera, mainly lies in accurately modeling the dynamic objects of a scene using limited 2D frames, each with a varying timestamp and viewpoint. Existing methods usually require pre-processed 2D optical flow and depth maps by off-the-shelf methods to supervise the network, making them suffer from the inaccuracy of the pre-processed supervision and the ambiguity when lifting the 2D information to 3D. In this paper, we tackle this challenge in an unsupervised fashion. Specifically, we decouple the motion of the dynamic objects into object motion and camera motion, respectively regularized by proposed unsupervised surface consistency and patch-based multi-view constraints. The former enforces the 3D geometric surfaces of moving objects to be consistent over time, while the latter regularizes their appearances to be consistent across different viewpoints. Such a fine-grained motion formulation can alleviate the learning difficulty for the network, thus enabling it to produce not only novel views with higher quality but also more accurate scene flows and depth than existing methods requiring extra supervision.
Abstract（参考訳）: 動的単眼映像からのダイナミックビュー合成の課題、すなわち、移動カメラが捉えた動的シーンの単眼映像を与えられた自由視点のための新しいビューの合成は、主に限られた2dフレームを用いてシーンの動的オブジェクトを正確にモデル化することであり、それぞれ異なるタイムスタンプと視点を持つ。既存の方法では、既処理の2D光流と深度マップをオフザシェルフ方式でネットワークを監視し、2D情報を3Dに持ち上げる際に、前処理の監督の正確さと曖昧さに悩まされる。本稿では,この課題を教師なしの方法で解決する。具体的には、動的物体の運動を物体の動きとカメラの動きに分離し、教師なし表面の整合性およびパッチベースのマルチビュー制約によって規則化する。前者は移動物体の3次元幾何学的表面を時間とともに整合させ、後者は外見を異なる視点で整合させるように規則化させる。このような細粒度な動きの定式化は,ネットワークの学習難易度を軽減できるため,既存の手法よりも高品質な新たなビューだけでなく,より正確なシーンフローや奥行きを生成できる。

関連論文リスト

4D3R: Motion-Aware Neural Reconstruction and Rendering of Dynamic Scenes from Monocular Videos [52.89084603734664]
静的および動的コンポーネントを2段階のアプローチで分離する,ポーズフリーな動的ニューラルネットワークレンダリングフレームワークである4D3Rを提案する。提案手法は最先端手法よりも最大1.8dBPSNRの改善を実現する。
論文参考訳（メタデータ） (2025-11-07T13:25:50Z)
MoVieS: Motion-Aware 4D Dynamic View Synthesis in One Second [29.926373004694728]
MoVieSはガウスプリミティブのピクセルアライングリッドを使用して動的3Dシーンを表現する。 MoVieSは、単一の学習ベースのフレームワーク内でのビュー合成、再構築、および3Dポイントトラッキングを可能にする。
論文参考訳（メタデータ） (2025-07-14T08:49:57Z)
DBMovi-GS: Dynamic View Synthesis from Blurry Monocular Video via Sparse-Controlled Gaussian Splatting [20.85857280726324]
スパース制御ガウススプラッティング(DBMovi-GS)によるBlurry Monocular Videoからのモーション対応動的ビュー合成を提案する。本モデルは,ダイナミックなぼやけたシーン下での新規ビュー合成におけるロバストな性能を実現し,ぼやけたモノクロビデオ入力のためのリアルな新規ビュー合成における新しいベンチマークを設定する。
論文参考訳（メタデータ） (2025-06-26T04:28:48Z)
DreamJourney: Perpetual View Generation with Video Diffusion Models [91.88716097573206]
永続ビュー生成は、単一の入力画像からのみ任意のカメラ軌跡に対応する長期映像を合成することを目的としている。近年の手法では、予め訓練されたテキスト・画像拡散モデルを用いて、カメラの動きに沿った未確認領域の新しいコンテンツを合成する。本稿では,映像拡散モデルの世界シミュレーション能力を活用して,新たなシーンビュー生成タスクを起動する2段階フレームワークであるDreamJourneyを紹介する。
論文参考訳（メタデータ） (2025-06-21T12:51:34Z)
Back on Track: Bundle Adjustment for Dynamic Scene Reconstruction [78.27956235915622]
従来のSLAMシステムは、カジュアルなビデオでよく見られる非常にダイナミックなシーンと格闘する。この研究は3Dポイントトラッカーを利用して、カメラによる動的物体の動きからカメラによる動きを分離する。私たちのフレームワークは、従来のSLAM -- バンドル調整 -- の中核を、堅牢な学習ベースの3Dトラッカーフロントエンドと組み合わせています。
論文参考訳（メタデータ） (2025-04-20T07:29:42Z)
Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文参考訳（メタデータ） (2024-07-30T15:33:58Z)
Shape of Motion: 4D Reconstruction from a Single Video [51.04575075620677]
本稿では,全列長3D動作を特徴とする汎用動的シーンを再構築する手法を提案する。シーン動作をコンパクトなSE3モーションベースで表現することで,3次元動作の低次元構造を利用する。本手法は,3D/2Dの長距離動き推定と動的シーンにおける新しいビュー合成の両面において,最先端の性能を実現する。
論文参考訳（メタデータ） (2024-07-18T17:59:08Z)
MoDGS: Dynamic Gaussian Splatting from Casually-captured Monocular Videos [65.31707882676292]
MoDGSは、カジュアルにキャプチャーされたモノクロビデオから、ダイナミックなシーンの新たなビューを描画する新しいパイプラインだ。実験では、MoDGSはカジュアルにキャプチャされたモノクロビデオから、ダイナミックシーンの高品質なノベルビュー画像をレンダリングできることを示した。
論文参考訳（メタデータ） (2024-06-01T13:20:46Z)
DRSM: efficient neural 4d decomposition for dynamic reconstruction in stationary monocular cameras [21.07910546072467]
モノクロカメラにおける動的シーンの4次元分解問題に対処するための新しい枠組みを提案する。本フレームワークでは,分解された静的・動的特徴面を用いて4次元シーンを表現し,高密度光線キャスティングによる動的領域の学習を強調する。
論文参考訳（メタデータ） (2024-02-01T16:38:51Z)
NeuralDiff: Segmenting 3D objects that move in egocentric videos [92.95176458079047]
観測された3次元シーンを静的な背景と動的前景に分解する問題について検討する。このタスクは、古典的な背景の減算問題を連想させるが、静的でダイナミックなシーンの全ての部分が大きな動きを生じさせるため、非常に難しい。特に、自我中心のビデオについて検討し、動的コンポーネントを観察・移動するオブジェクトとアクターにさらに分離する。
論文参考訳（メタデータ） (2021-10-19T12:51:35Z)
Attentive and Contrastive Learning for Joint Depth and Motion Field Estimation [76.58256020932312]
単眼視システムからシーンの3次元構造とともにカメラの動きを推定することは複雑な作業である。モノクロ映像からの3次元物体運動場推定のための自己教師付き学習フレームワークを提案する。
論文参考訳（メタデータ） (2021-10-13T16:45:01Z)
Unsupervised object-centric video generation and decomposition in 3D [36.08064849807464]
本研究では,複数の3Dオブジェクトと3D背景を持つシーンを移動しながら映像を映像としてモデル化することを提案する。我々のモデルは、監督なしに単眼ビデオから訓練されるが、複数の動く物体を含むコヒーレントな3Dシーンを生成することを学ぶ。
論文参考訳（メタデータ） (2020-07-07T18:01:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。