論文の概要: Towards Geometry-Aware and Motion-Guided Video Human Mesh Recovery
- arxiv url: http://arxiv.org/abs/2601.21376v1
- Date: Thu, 29 Jan 2026 08:05:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.660783
- Title: Towards Geometry-Aware and Motion-Guided Video Human Mesh Recovery
- Title(参考訳): 幾何学的認識と動画誘導によるヒューマンメッシュの回復に向けて
- Authors: Hongjun Chen, Huan Zheng, Wencheng Han, Jianbing Shen,
- Abstract要約: HMRMambaは3Dヒューマンメッシュリカバリのための新しいパラダイムである。
構造状態空間モデル(Structured State Space Models)をその効率性と長距離モデリングに利用した先駆者である。
まず、新しいデュアルスキャンのMambaアーキテクチャを特徴とするGeometry-Aware Lifting Moduleについて述べる。
- 参考スコア(独自算出の注目度): 60.51998732898099
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing video-based 3D Human Mesh Recovery (HMR) methods often produce physically implausible results, stemming from their reliance on flawed intermediate 3D pose anchors and their inability to effectively model complex spatiotemporal dynamics. To overcome these deep-rooted architectural problems, we introduce HMRMamba, a new paradigm for HMR that pioneers the use of Structured State Space Models (SSMs) for their efficiency and long-range modeling prowess. Our framework is distinguished by two core contributions. First, the Geometry-Aware Lifting Module, featuring a novel dual-scan Mamba architecture, creates a robust foundation for reconstruction. It directly grounds the 2D-to-3D pose lifting process with geometric cues from image features, producing a highly reliable 3D pose sequence that serves as a stable anchor. Second, the Motion-guided Reconstruction Network leverages this anchor to explicitly process kinematic patterns over time. By injecting this crucial temporal awareness, it significantly enhances the final mesh's coherence and robustness, particularly under occlusion and motion blur. Comprehensive evaluations on 3DPW, MPI-INF-3DHP, and Human3.6M benchmarks confirm that HMRMamba sets a new state-of-the-art, outperforming existing methods in both reconstruction accuracy and temporal consistency while offering superior computational efficiency.
- Abstract(参考訳): 既存のビデオベースの3Dヒューマンメッシュ・リカバリ(HMR)手法は、欠陥のある中間3Dポーズ・アンカーへの依存と、複雑な時空間力学を効果的にモデル化できないことから、物理的に不明瞭な結果をもたらすことが多い。
HMRMambaは、構造化状態空間モデル(Structured State Space Models, SSM)をその効率性と長距離モデリングに利用するための新しいパラダイムである。
私たちのフレームワークは2つのコアコントリビューションによって区別されています。
まず、ジオメトリ・アウェア・リフティング・モジュール(Geometry-Aware Lifting Module)は、新しいデュアルスキャン・マンバ・アーキテクチャを特徴としている。
2D-to-3Dのポーズリフトを画像の特徴から幾何的な手がかりで直接接地し、安定したアンカーとして機能する信頼性の高い3Dポーズシーケンスを生成する。
第二に、モーション誘導リコンストラクションネットワークは、このアンカーを利用して、時間とともに運動パターンを明示的に処理する。
この重要な時間的認識を注入することにより、最終メッシュのコヒーレンスとロバスト性、特に閉塞と運動のぼやけの下で著しく向上する。
3DPW、MPI-INF-3DHP、Human3.6Mベンチマークの総合的な評価により、HMRMambaはより優れた計算効率を提供しながら、復元精度と時間的整合性の両方において既存の手法よりも優れた新しい最先端の手法を設定できることが確認された。
関連論文リスト
- PRGCN: A Graph Memory Network for Cross-Sequence Pattern Reuse in 3D Human Pose Estimation [18.771349697842947]
本稿では、パターン検索と適応の問題としてポーズ推定を形式化する新しいフレームワークであるパターン再利用グラフ変換ネットワーク(PRGCN)を紹介する。
PRGCNのコアとなるグラフメモリバンクは、リレーショナルグラフとして符号化された一連のコンパクトなポーズプロトタイプを学習し、格納する。
PRGCNは,それぞれ37.1mm,13.4mmのMPJPEを達成し,クロスドメインの一般化能力の向上を図っている。
論文 参考訳(メタデータ) (2025-10-22T11:12:07Z) - GaVS: 3D-Grounded Video Stabilization via Temporally-Consistent Local Reconstruction and Rendering [54.489285024494855]
ビデオの安定化は、元のユーザの動きの意図を保ちながら、望ましくないシャキネスを除去するので、ビデオ処理に欠かせない。
既存のアプローチは、運用するドメインによって、ユーザエクスペリエンスを低下させるいくつかの問題に悩まされます。
ビデオの安定化を時間的に一貫性のある局所的再構成とレンダリングのパラダイムとして再構成する,新しい3Dグラウンドアプローチである textbfGaVS を紹介する。
論文 参考訳(メタデータ) (2025-06-30T15:24:27Z) - VEIGAR: View-consistent Explicit Inpainting and Geometry Alignment for 3D object Removal [2.8954284913103367]
新しいビュー合成(NVS)と3D生成は編集タスクを大幅に改善した。
生成プロセス全体を通して横断的な一貫性を維持するために、メソッドは通常、デュアルストラテジーフレームワークを使用してこの問題に対処する。
VEIGARは,初期再構成フェーズに依存することなく,既存の手法より優れた計算効率の高いフレームワークである。
論文 参考訳(メタデータ) (2025-06-13T11:31:44Z) - Learning to Align and Refine: A Foundation-to-Diffusion Framework for Occlusion-Robust Two-Hand Reconstruction [50.952228546326516]
単眼画像からの両手再建は、複雑でダイナミックな手の位置が原因で、永続的な課題に直面している。
既存のアプローチはそのようなアライメントの問題に悩まされ、しばしば不整合と侵入の成果物をもたらす。
本稿では,視覚基礎モデルからの2次元事前ガイダンスを正確に整合させる2段階のファンデーション・ツー・ディフュージョンフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-22T14:42:27Z) - LHM: Large Animatable Human Reconstruction Model from a Single Image in Seconds [21.99354901986186]
フィードフォワードパスで3次元ガウススプラッティングを表現した高忠実度アバターを推定するためのLHM(Large Animatable Human Reconstruction Model)を提案する。
本モデルでは,マルチモーダルトランスフォーマーアーキテクチャを用いて,人体の位置や画像の特徴を効果的に符号化する。
我々のLHMは、顔と手を後処理することなく、数秒で可塑性アニマタブルな人間を生成し、再現精度と一般化能力の両方において既存の手法より優れています。
論文 参考訳(メタデータ) (2025-03-13T17:59:21Z) - Evolving High-Quality Rendering and Reconstruction in a Unified Framework with Contribution-Adaptive Regularization [27.509109317973817]
3D Gaussian Splatting (3DGS)は、高品質なレンダリングと高速な推論速度で注目されている。
従来の手法は主に幾何学的正則化に焦点を当てており、プリミティブベースのフレームワークやデュアルモデルフレームワークを含む一般的なアプローチがある。
本稿では,高画質表面再構成を実現するために,適応正規化を利用した統一モデルであるCarGSを提案する。
論文 参考訳(メタデータ) (2025-03-02T12:51:38Z) - T-3DGS: Removing Transient Objects for 3D Scene Reconstruction [83.05271859398779]
映像シーケンスにおける過渡的オブジェクトは、3Dシーン再構成の品質を著しく低下させる可能性がある。
我々は,ガウススプラッティングを用いた3次元再構成において,過渡的障害を頑健に除去する新しいフレームワークT-3DGSを提案する。
論文 参考訳(メタデータ) (2024-11-29T07:45:24Z) - HeadRecon: High-Fidelity 3D Head Reconstruction from Monocular Video [37.53752896927615]
任意のモノクラービデオから高忠実度3Dヘッドモデルの再構成について検討する。
本稿では,これらの問題に対処するために,事前誘導型動的暗黙的ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T12:38:56Z) - Unsupervised 3D Pose Estimation with Non-Rigid Structure-from-Motion
Modeling [83.76377808476039]
本研究では,人間のポーズの変形をモデル化し,それに伴う拡散に基づく動きを事前に設計する手法を提案する。
動作中の3次元人間の骨格を復元する作業は3次元基準骨格の推定に分割する。
混合時空間NASfMformerを用いて、各フレームの3次元基準骨格と骨格変形を2次元観測シーケンスから同時に推定する。
論文 参考訳(メタデータ) (2023-08-18T16:41:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。