論文の概要: 4DEquine: Disentangling Motion and Appearance for 4D Equine Reconstruction from Monocular Video
- arxiv url: http://arxiv.org/abs/2603.10125v1
- Date: Tue, 10 Mar 2026 18:01:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.642463
- Title: 4DEquine: Disentangling Motion and Appearance for 4D Equine Reconstruction from Monocular Video
- Title(参考訳): 4DEquine:モノクルビデオからの4Dエクイン再構成のための遠心運動と外見
- Authors: Jin Lyu, Liang An, Pujin Cheng, Yebin Liu, Xiaoying Tang,
- Abstract要約: 本研究では、4次元再構成問題を動的運動再構成と静的外観再構成の2つのサブプロブレムに分離する4DEquineと呼ばれる新しいフレームワークを提案する。
動画からスムーズかつピクセルアライメントなポーズと形状のシーケンスを復元するために,動作を最適化したシンプルな,効果的かつ効果的なトランスフォーマーを導入する。
本研究では,高忠実でアニマタブルな3Dガウスアバターを単一画像から再構成するフィードフォワードネットワークを設計する。
- 参考スコア(独自算出の注目度): 40.23548336607091
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 4D reconstruction of equine family (e.g. horses) from monocular video is important for animal welfare. Previous mainstream 4D animal reconstruction methods require joint optimization of motion and appearance over a whole video, which is time-consuming and sensitive to incomplete observation. In this work, we propose a novel framework called 4DEquine by disentangling the 4D reconstruction problem into two sub-problems: dynamic motion reconstruction and static appearance reconstruction. For motion, we introduce a simple yet effective spatio-temporal transformer with a post-optimization stage to regress smooth and pixel-aligned pose and shape sequences from video. For appearance, we design a novel feed-forward network that reconstructs a high-fidelity, animatable 3D Gaussian avatar from as few as a single image. To assist training, we create a large-scale synthetic motion dataset, VarenPoser, which features high-quality surface motions and diverse camera trajectories, as well as a synthetic appearance dataset, VarenTex, comprising realistic multi-view images generated through multi-view diffusion. While training only on synthetic datasets, 4DEquine achieves state-of-the-art performance on real-world APT36K and AiM datasets, demonstrating the superiority of 4DEquine and our new datasets for both geometry and appearance reconstruction. Comprehensive ablation studies validate the effectiveness of both the motion and appearance reconstruction network. Project page: https://luoxue-star.github.io/4DEquine_Project_Page/.
- Abstract(参考訳): 動物福祉には, モノクローナルビデオからの馬の4次元再構成が重要である。
以前の主流の4D動物再構成法では、動画全体の動きと外観を共同で最適化する必要があるが、これは時間がかかり不完全な観察に敏感である。
本研究では,4次元再構成問題を動的運動再構成と静的外観再構成の2つのサブプロブレムに分割することで,4DEquineと呼ばれる新しいフレームワークを提案する。
動画からスムーズかつピクセルアライメントなポーズと形状のシーケンスを復元する,後最適化段階のシンプルな時空間変圧器を提案する。
本研究では,高忠実でアニマタブルな3Dガウスアバターを単一画像から再構成するフィードフォワードネットワークを設計する。
トレーニングを支援するために、高品質な表面運動と多様なカメラ軌道を特徴とする大規模な合成モーションデータセットVarenPoserと、マルチビュー拡散によって生成された現実的なマルチビュー画像からなる合成外観データセットVarenTexを作成する。
4DEquineは、合成データセットのみをトレーニングしながら、実世界のAPT36KおよびAiMデータセット上で最先端のパフォーマンスを実現し、4DEquineと我々の新しいデータセットのジオメトリおよび外観再構成における優位性を実証した。
総合的アブレーション研究は、運動と外観再構成ネットワークの有効性を検証した。
プロジェクトページ:https://luoxue-star.github.io/4DEquine_Project_Page/。
関連論文リスト
- ArtHOI: Articulated Human-Object Interaction Synthesis by 4D Reconstruction from Video Priors [51.06020148149403]
ビデオ先行画像からの4D再構成による人-物間相互作用合成のための最初のゼロショットフレームワークであるArtHOIを紹介する。
ArtHOIは、ビデオベースの生成と幾何学的認識の再構築をブリッジし、セマンティックアライメントと物理的基盤の両方のインタラクションを生成する。
論文 参考訳(メタデータ) (2026-03-04T17:58:04Z) - Motion 3-to-4: 3D Motion Reconstruction for 4D Synthesis [53.48281548500864]
Motion 3-to-4は、単一のモノクロビデオから高品質な4Dダイナミックオブジェクトを合成するためのフィードフォワードフレームワークである。
我々のモデルは、コンパクトな動き潜在表現を学習し、フレーム単位の軌道を予測して、時間的コヒーレントな幾何である完全なロバスト性を取り戻す。
論文 参考訳(メタデータ) (2026-01-20T18:59:48Z) - Mesh4D: 4D Mesh Reconstruction and Tracking from Monocular Video [81.44600627066747]
Mesh4Dはモノクル4Dメッシュ再構成のためのフィードフォワードモデルである。
私たちの重要な貢献は、単一のパスでアニメーションシーケンス全体をエンコードするコンパクトな潜在空間です。
提案手法は, 3次元形状と変形を再現する上で, 従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2026-01-08T18:59:56Z) - Web-Scale Collection of Video Data for 4D Animal Reconstruction [26.179284343904897]
私たちは、YouTubeビデオをマイニングし、それらをオブジェクト中心のクリップに加工する自動化パイプラインを導入しました。
このパイプラインを使って、30Kビデオ(2Mフレーム)を収集します。
クリーンで多様な動物の動きを示す11Kフレームの230個の手動フィルタリングシーケンスのベンチマークであるAnimal-in-Motionを提案する。
論文 参考訳(メタデータ) (2025-11-03T02:40:06Z) - Diff4Splat: Controllable 4D Scene Generation with Latent Dynamic Reconstruction Models [79.06910348413861]
Diff4Splatは、単一の画像から制御可能で明示的な4Dシーンを合成するフィードフォワード方式である。
単一の入力画像、カメラ軌跡、オプションのテキストプロンプトが与えられた場合、Diff4Splatは外見、幾何学、動きを符号化する変形可能な3Dガウス場を直接予測する。
論文 参考訳(メタデータ) (2025-11-01T11:16:25Z) - Restage4D: Reanimating Deformable 3D Reconstruction from a Single Video [56.781766315691854]
ビデオ条件付き4D再生のための幾何学保存パイプラインである textbfRestage4D を紹介する。
DAVIS と PointOdyssey 上のRestage4D の有効性を検証し,幾何整合性,運動品質,3次元追跡性能の向上を実証した。
論文 参考訳(メタデータ) (2025-08-08T21:31:51Z) - MoSca: Dynamic Gaussian Fusion from Casual Videos via 4D Motion Scaffolds [27.802537831023347]
野生でカジュアルに撮影されたモノクロビデオから動的シーンの新たなビューを再構築し、合成するために設計された、モダンな4D再構成システムである4D Motion Scaffolds (MoSca)を紹介した。
動的レンダリングベンチマークにおける最先端のパフォーマンスと実動画での有効性について実験を行った。
論文 参考訳(メタデータ) (2024-05-27T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。