論文の概要: Depth-Guided Metric-Aware Temporal Consistency for Monocular Video Human Mesh Recovery
- arxiv url: http://arxiv.org/abs/2602.04257v1
- Date: Wed, 04 Feb 2026 06:41:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.406018
- Title: Depth-Guided Metric-Aware Temporal Consistency for Monocular Video Human Mesh Recovery
- Title(参考訳): 深度ガイドによる単眼ビデオヒューマンメッシュ回復のための時間的整合性
- Authors: Jiaxin Cen, Xudong Mao, Guanghui Yue, Wei Zhou, Ruomei Wang, Fan Zhou, Baoquan Zhao,
- Abstract要約: 本稿では,3つの相乗的コンポーネントを通して,計量的時間的整合性を実現する包括的フレームワークを提案する。
Depth-Guided Multi-Scale Fusionモジュールは、幾何的先行とRGB機能とを、信頼を意識したゲーティングを通じて適応的に統合する。
MoDAR(Motion-Depth Aligned Refinement)モジュールは、運動力学と幾何学的手がかりの間の横断的な注意を通して時間的コヒーレンスを強制する。
- 参考スコア(独自算出の注目度): 28.9705779052755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular video human mesh recovery faces fundamental challenges in maintaining metric consistency and temporal stability due to inherent depth ambiguities and scale uncertainties. While existing methods rely primarily on RGB features and temporal smoothing, they struggle with depth ordering, scale drift, and occlusion-induced instabilities. We propose a comprehensive depth-guided framework that achieves metric-aware temporal consistency through three synergistic components: A Depth-Guided Multi-Scale Fusion module that adaptively integrates geometric priors with RGB features via confidence-aware gating; A Depth-guided Metric-Aware Pose and Shape (D-MAPS) estimator that leverages depth-calibrated bone statistics for scale-consistent initialization; A Motion-Depth Aligned Refinement (MoDAR) module that enforces temporal coherence through cross-modal attention between motion dynamics and geometric cues. Our method achieves superior results on three challenging benchmarks, demonstrating significant improvements in robustness against heavy occlusion and spatial accuracy while maintaining computational efficiency.
- Abstract(参考訳): 単眼ビデオのヒューマンメッシュリカバリは、固有の深さの曖昧さとスケールの不確実性により、メートル法一貫性と時間的安定性を維持する上で、根本的な課題に直面している。
既存の手法は主にRGBの特徴と時間的平滑化に依存しているが、深度順応、スケールドリフト、閉塞による不安定性に苦慮している。
本稿では,3つの相乗的成分を介し,幾何先行とRGB特徴を適応的に統合する深度誘導型多段階融合モジュール,深度補正された骨の統計をスケール一貫性の初期化に活用する深度誘導型メトリアウェア・ポース・アンド・シェイプ (D-MAPS) 推定器,運動深度調整型リファインメント (MoDAR) モジュールの3つの相乗的成分による時間的整合性を実現する包括的深度誘導型フレームワークを提案する。
提案手法は,計算効率を保ちながら,重閉塞に対する頑健さと空間精度を大幅に向上することを示す。
関連論文リスト
- Towards Geometry-Aware and Motion-Guided Video Human Mesh Recovery [60.51998732898099]
HMRMambaは3Dヒューマンメッシュリカバリのための新しいパラダイムである。
構造状態空間モデル(Structured State Space Models)をその効率性と長距離モデリングに利用した先駆者である。
まず、新しいデュアルスキャンのMambaアーキテクチャを特徴とするGeometry-Aware Lifting Moduleについて述べる。
論文 参考訳(メタデータ) (2026-01-29T08:05:02Z) - HAD: Hierarchical Asymmetric Distillation to Bridge Spatio-Temporal Gaps in Event-Based Object Tracking [80.07224739976911]
イベントカメラは例外的な時間分解能と範囲(モード)を提供する
RGBカメラは高解像度でリッチテクスチャを捉えるのに優れていますが、イベントカメラは例外的な時間分解能とレンジ(モダル)を提供します。
論文 参考訳(メタデータ) (2025-10-22T13:15:13Z) - DVLO4D: Deep Visual-Lidar Odometry with Sparse Spatial-temporal Fusion [28.146811420532455]
DVLO4Dは,空間-時空間融合を利用して精度とロバスト性を向上する新しい視覚-LiDARオドメトリーフレームワークである。
提案手法は,82msの予測時間を持つ高効率で,実時間展開の可能性を秘めている。
論文 参考訳(メタデータ) (2025-09-07T11:43:11Z) - GRASPTrack: Geometry-Reasoned Association via Segmentation and Projection for Multi-Object Tracking [11.436294975354556]
GRASPTrackはモノクロ深度推定とインスタンスセグメンテーションを標準TBDパイプラインに統合する新しいMOTフレームワークである。
これらの3D点雲は、精密で堅牢なVoxel-based 3D Intersection-over-Unionを可能にするために酸化される。
論文 参考訳(メタデータ) (2025-08-11T15:56:21Z) - Learning to Align and Refine: A Foundation-to-Diffusion Framework for Occlusion-Robust Two-Hand Reconstruction [50.952228546326516]
単眼画像からの両手再建は、複雑でダイナミックな手の位置が原因で、永続的な課題に直面している。
既存のアプローチはそのようなアライメントの問題に悩まされ、しばしば不整合と侵入の成果物をもたらす。
本稿では,視覚基礎モデルからの2次元事前ガイダンスを正確に整合させる2段階のファンデーション・ツー・ディフュージョンフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-22T14:42:27Z) - On Robust Cross-View Consistency in Self-Supervised Monocular Depth Estimation [56.97699793236174]
本論文では,2種類の堅牢なクロスビュー整合性について検討する。
深度特徴空間と3次元ボクセル空間の時間的コヒーレンスを自己教師付き単眼深度推定に利用した。
いくつかのアウトドアベンチマークの実験結果から,本手法は最先端技術より優れていることが示された。
論文 参考訳(メタデータ) (2022-09-19T03:46:13Z) - DeepRM: Deep Recurrent Matching for 6D Pose Refinement [77.34726150561087]
DeepRMは、6Dポーズ改善のための新しいリカレントネットワークアーキテクチャである。
アーキテクチャにはLSTMユニットが組み込まれ、各改善ステップを通じて情報を伝達する。
DeepRMは、2つの広く受け入れられている課題データセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-05-28T16:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。