論文の概要: PAD3R: Pose-Aware Dynamic 3D Reconstruction from Casual Videos
- arxiv url: http://arxiv.org/abs/2509.25183v1
- Date: Mon, 29 Sep 2025 17:59:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:44:59.899687
- Title: PAD3R: Pose-Aware Dynamic 3D Reconstruction from Casual Videos
- Title(参考訳): PAD3R:カジュアルビデオの動的3D再構成
- Authors: Ting-Hsuan Liao, Haowen Liu, Yiran Xu, Songwei Ge, Gengshan Yang, Jia-Bin Huang,
- Abstract要約: PAD3Rは、カジュアルにキャプチャーされたモノクロビデオから変形可能な3Dオブジェクトを再構成する方法である。
その中心となるアプローチは、事前訓練された画像から3Dモデルによって教師される、パーソナライズされたオブジェクト中心のポーズ推定器を訓練する。
PAD3Rは、生成前の先行と異なるレンダリングを組み合わせることで、カテゴリーに依存しない方法で、高忠実で明瞭なオブジェクトの3D表現を再構築する。
- 参考スコア(独自算出の注目度): 25.79551555341372
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present PAD3R, a method for reconstructing deformable 3D objects from casually captured, unposed monocular videos. Unlike existing approaches, PAD3R handles long video sequences featuring substantial object deformation, large-scale camera movement, and limited view coverage that typically challenge conventional systems. At its core, our approach trains a personalized, object-centric pose estimator, supervised by a pre-trained image-to-3D model. This guides the optimization of deformable 3D Gaussian representation. The optimization is further regularized by long-term 2D point tracking over the entire input video. By combining generative priors and differentiable rendering, PAD3R reconstructs high-fidelity, articulated 3D representations of objects in a category-agnostic way. Extensive qualitative and quantitative results show that PAD3R is robust and generalizes well across challenging scenarios, highlighting its potential for dynamic scene understanding and 3D content creation.
- Abstract(参考訳): 本研究では, カジュアルにキャプチャされたモノクロビデオから変形可能な3Dオブジェクトを再構成する手法であるPAD3Rを提案する。
既存のアプローチとは異なり、PAD3Rはオブジェクトの変形、大規模なカメラの動き、通常は従来のシステムに挑戦する限られた視野を特徴とする長いビデオシーケンスを扱う。
その中心となるアプローチは、事前訓練された画像から3Dモデルによって教師される、パーソナライズされたオブジェクト中心のポーズ推定器を訓練する。
これは変形可能な3次元ガウス表現の最適化を導く。
最適化は、入力ビデオ全体の長期2Dポイントトラッキングによってさらに規則化される。
PAD3Rは、生成前の先行と異なるレンダリングを組み合わせることで、カテゴリーに依存しない方法で、高忠実で明瞭なオブジェクトの3D表現を再構築する。
大規模定性的かつ定量的な結果は、PAD3Rが堅牢であり、挑戦的なシナリオにまたがってうまく一般化し、動的なシーン理解と3Dコンテンツ作成の可能性を強調していることを示している。
関連論文リスト
- GaVS: 3D-Grounded Video Stabilization via Temporally-Consistent Local Reconstruction and Rendering [54.489285024494855]
ビデオの安定化は、元のユーザの動きの意図を保ちながら、望ましくないシャキネスを除去するので、ビデオ処理に欠かせない。
既存のアプローチは、運用するドメインによって、ユーザエクスペリエンスを低下させるいくつかの問題に悩まされます。
ビデオの安定化を時間的に一貫性のある局所的再構成とレンダリングのパラダイムとして再構成する,新しい3Dグラウンドアプローチである textbfGaVS を紹介する。
論文 参考訳(メタデータ) (2025-06-30T15:24:27Z) - DGS-LRM: Real-Time Deformable 3D Gaussian Reconstruction From Monocular Videos [52.46386528202226]
Deformable Gaussian Splats Large Reconstruction Model (DGS-LRM)を紹介する。
動的シーンのモノクロポーズビデオから変形可能な3Dガウススプラットを予測する最初のフィードフォワード法である。
最先端のモノクロビデオ3D追跡手法と同等の性能を発揮する。
論文 参考訳(メタデータ) (2025-06-11T17:59:58Z) - UniK3D: Universal Camera Monocular 3D Estimation [62.06785782635153]
カメラをモデル化可能なモノクル3D推定法として,UniK3Dを提案する。
本手法では, 球面3次元表現を導入し, カメラとシーンの形状をよりよく切り離すことができる。
13の多様なデータセットに対する包括的なゼロショット評価は、3D、ディープ、カメラメトリクスにわたるUniK3Dの最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-03-20T17:49:23Z) - Wonderland: Navigating 3D Scenes from a Single Image [43.99037613068823]
本研究では,映像拡散モデルからの潜伏分を利用した大規模再構成モデルを導入し,映像の3次元ガウススプラッティングをフィードフォワードで予測する。
プログレッシブ・ラーニング・ストラテジーを用いて3次元再構成モデルをトレーニングし,高品質でワイドスコープ,ジェネリックな3次元シーンの効率的な生成を可能にする。
論文 参考訳(メタデータ) (2024-12-16T18:58:17Z) - LiftImage3D: Lifting Any Single Image to 3D Gaussians with Video Generation Priors [107.83398512719981]
シングルイメージの3D再構成は、コンピュータビジョンの根本的な課題である。
遅延ビデオ拡散モデルの最近の進歩は、大規模ビデオデータから学ぶ有望な3D事前情報を提供する。
本稿では,LVDMの生成先行情報を効果的にリリースするフレームワークであるLiftImage3Dを提案する。
論文 参考訳(メタデータ) (2024-12-12T18:58:42Z) - Towards Robust and Smooth 3D Multi-Person Pose Estimation from Monocular
Videos in the Wild [10.849750765175754]
POTR-3Dは3DMPPEのためのシーケンスツーシーケンス2D-to-3Dリフトモデルである。
多様な見えないビューに強く一般化し、重いオクルージョンに対するポーズを強く回復し、より自然でスムーズなアウトプットを確実に生成する。
論文 参考訳(メタデータ) (2023-09-15T06:17:22Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。