Fugu-MT 論文翻訳(概要): Natural Human Motion Recovery by Aligning High-Order Temporal Dynamics from Monocular Videos

論文の概要: Natural Human Motion Recovery by Aligning High-Order Temporal Dynamics from Monocular Videos

arxiv url: http://arxiv.org/abs/2605.26879v1
Date: Tue, 26 May 2026 11:38:36 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-27 17:51:41.980787
Title: Natural Human Motion Recovery by Aligning High-Order Temporal Dynamics from Monocular Videos
Title（参考訳）: モノクロ映像からの高次時間ダイナミクスの調整による自然運動の回復
Authors: Dingkun Wei, Zehong Shen, Yan Xia, Georgios Pavlakos, Yujun Shen, Xiaowei Zhou,
Abstract要約: 本稿では,HTD-Refineについて紹介する。HTD-Refineは人体運動回復(HMR)パイプラインを高次時間ダイナミクスを用いて拡張する後処理フレームワークである。システムの中心となるPVA-Netは,モノクロ映像から直接接合部2次元位置,3次元速度,3次元加速度を推定する時間変換器である。
参考スコア（独自算出の注目度）: 65.51845732149306
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Human motion recovered from monocular videos often appears overly smooth or dynamically inconsistent, even when joint positions are numerically accurate. We observe that this limitation stems from the absence of reliable high-order temporal cues -- velocity and acceleration -- which are essential for reconstructing motion that exhibits realistic momentum, timing, and high-frequency detail. We introduce HTD-Refine, a post-processing framework that augments existing Human Motion Recovery (HMR) pipelines using explicitly estimated high-order temporal dynamics. At the core of our system is PVA-Net, a temporal transformer that infers per-joint 2D positions, 3D velocities, and 3D accelerations directly from a monocular video. These predicted dynamics serve as soft yet informative constraints in a global optimization procedure that refines world-space trajectories, significantly reducing jitter, suppressing over-smoothing, and restoring physically plausible motion. Extensive experiments on challenging in-the-wild benchmarks show that HTD-Refine consistently improves state-of-the-art HMR methods, yielding more accurate global trajectories and substantially more natural motion dynamics. Our results highlight the critical role of high-order temporal modeling in advancing monocular human motion recovery.
Abstract（参考訳）: 単眼ビデオから回収された人間の動きは、数値的に関節の位置が正確である場合でも、過度に滑らかまたは動的に矛盾する。この制限は、現実的な運動量、タイミング、高頻度の詳細を示す動きの再構築に不可欠な高次時空 -- 速度と加速度 -- が欠如していることに起因している。 HTD-Refineは,既存のHuman Motion Recovery (HMR)パイプラインを高次時間動的に推定して拡張する後処理フレームワークである。システムの中心となるPVA-Netは,モノクロ映像から直接接合部2次元位置,3次元速度,3次元加速度を推定する時間変換器である。これらの予測力学は、世界空間の軌跡を洗練させ、ジッタを著しく減らし、過度な平滑化を抑え、物理的に妥当な動きを復元するグローバルな最適化手順において、ソフトで有意義な制約として機能する。 HTD-Refineは最新のHMR法を一貫して改善し、より正確なグローバルな軌跡と、より自然な運動力学をもたらすことを示した。本研究は,ヒトの運動回復における高次時間モデルの重要性を強調した。

関連論文リスト

RiGS: Rigid-aware 4D Gaussian Splatting from a Single Monocular Video [38.8840959968641]
我々は,複数の時間スケールにわたる動きを同時にキャプチャするRiGS(Rigid-aware 4D Gaussian Splatting)を提案する。 RiGSは、新しいビュー合成ベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2026-05-22T14:20:39Z)
Bézier Degradation Modeling for LiDAR-based Human Motion Capture [21.718401755735773]
BMLiCapは、時間圧縮可能なベジエ曲線を用いて動きをモデル化する粗大なフレームワークである。複雑なシーンにおける最先端の精度と時間的連続性を達成する。
論文参考訳（メタデータ） (2026-05-19T09:56:52Z)
PhyMotion: Structured 3D Motion Reward for Physics-Grounded Human Video Generation [75.96085587438279]
既存のビデオ報酬は主に2D知覚信号に依存しており、3Dの身体状態、接触状態、人間の関節の動きに基づくダイナミクスを明示的にモデル化する必要はない。物理シミュレータにおける3次元人体軌道の復元を基礎とした構造的,きめ細かな運動報酬であるPhyMotionを提案し,運動の質を多次元の物理的実現性に沿って評価する。実験により、PhyMotionは既存の報酬の定式化よりも人間の判断と強い相関性が得られることが示された。
論文参考訳（メタデータ） (2026-05-14T02:12:13Z)
Mango-GS: Enhancing Spatio-Temporal Consistency in Dynamic Scenes Reconstruction using Multi-Frame Node-Guided 4D Gaussian Splatting [17.957935001501106]
我々は,高忠実度4D再構成のためのノード誘導フレームワークMango-GSを提案する。時間変換器を利用して、フレームの短いウィンドウ内での動作依存をモデル化する。 Mango-GSは、最先端の再構築品質とリアルタイムレンダリング速度を達成する。
論文参考訳（メタデータ） (2026-03-12T05:00:16Z)
PEGS: Physics-Event Enhanced Large Spatiotemporal Motion Reconstruction via 3D Gaussian Splatting [8.672740691555736]
PEGSは3D Gaussian Splattingパイプライン内でのイベントストリーム拡張と物理プライオリティを統合するフレームワークである。本稿では,加速度制約を通した物理的妥当性を強制する3段階の監視手法を提案する。また、さまざまなデータセットにまたがる自然な高速な動きをターゲットとした、最初のRGB-Eventペアも提供します。
論文参考訳（メタデータ） (2025-11-21T10:27:51Z)
Dyn-HaMR: Recovering 4D Interacting Hand Motion from a Dynamic Camera [49.82535393220003]
Dyn-HaMRは、野生のダイナミックカメラで撮影されたモノクロビデオから4Dグローバルハンドモーションを再構築する最初のアプローチである。提案手法は,4次元メッシュ・リカバリにおいて最先端の手法を著しく上回ることを示す。これにより、動くカメラでモノクロビデオから手の動きを復元するための新しいベンチマークが確立される。
論文参考訳（メタデータ） (2024-12-17T12:43:10Z)
Temporal-Aware Refinement for Video-based Human Pose and Shape Recovery [20.566505924677013]
本研究では,時間認識のグローバルな特徴と局所的な特徴を探索し,正確なポーズと形状回復を実現するための時間認識精細ネットワーク(TAR)を提案する。我々のTARは,3DPW,MPI-INF-3DHP,Human3.6Mといった,従来の最先端手法よりも正確な結果が得られる。
論文参考訳（メタデータ） (2023-11-16T03:35:17Z)
GLAMR: Global Occlusion-Aware Human Mesh Recovery with Dynamic Cameras [99.07219478953982]
ダイナミックカメラで記録したモノクロビデオから3次元グローバルなヒューマンメッシュリカバリのためのアプローチを提案する。われわれはまず,視覚的動作に基づいて隠蔽されたヒトの身体運動を自己回帰的に埋め込む,深部再生運動充填装置を提案する。従来の研究とは対照的に,我々の手法はダイナミックカメラを用いても,一貫したグローバル座標で人間のメッシュを再構築する。
論文参考訳（メタデータ） (2021-12-02T18:59:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。