論文の概要: Forge4D: Feed-Forward 4D Human Reconstruction and Interpolation from Uncalibrated Sparse-view Videos
- arxiv url: http://arxiv.org/abs/2509.24209v1
- Date: Mon, 29 Sep 2025 02:47:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.70063
- Title: Forge4D: Feed-Forward 4D Human Reconstruction and Interpolation from Uncalibrated Sparse-view Videos
- Title(参考訳): Forge4D: 疎視映像からのフィードフォワード4Dの復元と補間
- Authors: Yingdong Hu, Yisheng He, Jinnan Chen, Weihao Yuan, Kejie Qiu, Zehong Lin, Siyu Zhu, Zilong Dong, Jun Zhang,
- Abstract要約: 本研究では,非校正されたスパースビュー映像からの時間的整列表現を効率よく校正するフィードフォワード4次元人間の再構成とモデルを提案する。
新たに,隣接する2つのフレーム間の3次元ガウス運動の高密度な動きを予測するための動き予測モジュールを設計した。
実験では、ドメイン内データセットとドメイン外データセットの両方において、モデルの有効性を示す。
- 参考スコア(独自算出の注目度): 27.595035122927204
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instant reconstruction of dynamic 3D humans from uncalibrated sparse-view videos is critical for numerous downstream applications. Existing methods, however, are either limited by the slow reconstruction speeds or incapable of generating novel-time representations. To address these challenges, we propose Forge4D, a feed-forward 4D human reconstruction and interpolation model that efficiently reconstructs temporally aligned representations from uncalibrated sparse-view videos, enabling both novel view and novel time synthesis. Our model simplifies the 4D reconstruction and interpolation problem as a joint task of streaming 3D Gaussian reconstruction and dense motion prediction. For the task of streaming 3D Gaussian reconstruction, we first reconstruct static 3D Gaussians from uncalibrated sparse-view images and then introduce learnable state tokens to enforce temporal consistency in a memory-friendly manner by interactively updating shared information across different timestamps. For novel time synthesis, we design a novel motion prediction module to predict dense motions for each 3D Gaussian between two adjacent frames, coupled with an occlusion-aware Gaussian fusion process to interpolate 3D Gaussians at arbitrary timestamps. To overcome the lack of the ground truth for dense motion supervision, we formulate dense motion prediction as a dense point matching task and introduce a self-supervised retargeting loss to optimize this module. An additional occlusion-aware optical flow loss is introduced to ensure motion consistency with plausible human movement, providing stronger regularization. Extensive experiments demonstrate the effectiveness of our model on both in-domain and out-of-domain datasets. Project page and code at: https://zhenliuzju.github.io/huyingdong/Forge4D.
- Abstract(参考訳): 非校正されたスパースビュービデオからの動的3次元人間の即時再構築は多くの下流アプリケーションにとって重要である。
しかし、既存の手法は、遅い復元速度によって制限されるか、新しい時間表現を生成できないかのいずれかである。
これらの課題に対処するため,フィードフォワード4次元人間の再構成と補間モデルであるForge4Dを提案する。
本モデルでは, 3次元ガウス再構成と高密度動き予測の連成課題として, 4次元再構成と補間問題を単純化する。
3Dガウス変換の処理では,まず静止3Dガウスアンをスパースビュー画像から再構成し,異なるタイムスタンプをまたいだ共有情報をインタラクティブに更新することで,時間的整合性を実現するための学習可能な状態トークンを導入する。
新たな時間合成のために,隣接する2つのフレーム間の各3次元ガウスの密度運動を予測し,任意のタイムスタンプで3次元ガウスを補間するためのオクルージョン対応ガウス融合プロセスと組み合わせた,新しい動き予測モジュールを設計する。
濃密な運動監視のための基底的真実の欠如を克服するため、高密度な運動予測を高密度な点マッチングタスクとして定式化し、このモジュールを最適化するために自己監督的再ターゲット損失を導入する。
より強力な正則化を実現するため、可視的な人間の動きとの運動の整合性を確保するために、追加のオクルージョン対応光フロー損失が導入された。
広範囲にわたる実験により、ドメイン内およびドメイン外両方のデータセットに対するモデルの有効性が実証された。
プロジェクトページとコード https://zhenliuzju.github.io/huyingdong/Forge4D
関連論文リスト
- Pseudo Depth Meets Gaussian: A Feed-forward RGB SLAM Baseline [64.42938561167402]
本稿では,3次元ガウス型SLAMとフィードフォワードリカレント予測モジュールを組み合わせたオンライン3次元再構成手法を提案する。
このアプローチは、遅いテスト時間の最適化を高速なネットワーク推論に置き換え、トラッキング速度を大幅に改善する。
提案手法は,最先端のSplaTAMと同等の性能を示しながら,追跡時間を90%以上削減する。
論文 参考訳(メタデータ) (2025-08-06T16:16:58Z) - FreeTimeGS: Free Gaussian Primitives at Anytime and Anywhere for Dynamic Scene Reconstruction [64.30050475414947]
FreeTimeGSはガウスのプリミティブを任意の時間と位置で表示できる新しい4D表現である。
我々の表現は強い柔軟性を持ち、ダイナミックな3Dシーンをモデル化する能力を向上させる。
いくつかのデータセットに対する実験結果から,本手法のレンダリング品質は,最近の手法よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2025-06-05T17:59:57Z) - S4D: Streaming 4D Real-World Reconstruction with Gaussians and 3D Control Points [30.46796069720543]
本稿では,離散的な3次元制御点を用いた4次元実世界の再構成をストリーミングする手法を提案する。
この方法は局所光を物理的にモデル化し、運動デカップリング座標系を確立する。
従来のグラフィックスと学習可能なパイプラインを効果的にマージすることにより、堅牢で効率的なローカルな6自由度(6自由度)モーション表現を提供する。
論文 参考訳(メタデータ) (2024-08-23T12:51:49Z) - RoHM: Robust Human Motion Reconstruction via Diffusion [58.63706638272891]
RoHMは、モノクロRGB(-D)ビデオから頑健な3次元人間の動きを復元するためのアプローチである。
ノイズと閉鎖された入力データに条件付けし、一貫した大域座標で完全な可塑性運動を再構成した。
本手法は,テスト時に高速でありながら,定性的かつ定量的に最先端の手法より優れる。
論文 参考訳(メタデータ) (2024-01-16T18:57:50Z) - Motion2VecSets: 4D Latent Vector Set Diffusion for Non-rigid Shape Reconstruction and Tracking [52.393359791978035]
Motion2VecSetsは点雲列からの動的表面再構成のための4次元拡散モデルである。
グローバルな潜在符号の代わりに、潜在集合で4Dダイナミクスをパラメータ化する。
時間的コヒーレントな物体追跡のために、変形潜在集合を同期的に認知し、複数のフレーム間で情報を交換する。
論文 参考訳(メタデータ) (2024-01-12T15:05:08Z) - OcclusionFusion: Occlusion-aware Motion Estimation for Real-time Dynamic
3D Reconstruction [14.130915525776055]
RGBDに基づくリアルタイム動的3次元再構成は、フレーム間運動推定の不正確さに悩まされる。
オクルージョンフュージョン(OcclusionFusion, OcclusionFusion)は、オクルージョンを意識した3次元運動を計算し、再構成を誘導する手法である。
本手法は,既存の単一ビューベースリアルタイム手法よりも大きなマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-03-15T15:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。