Fugu-MT 論文翻訳(概要): RopeTP: Global Human Motion Recovery via Integrating Robust Pose Estimation with Diffusion Trajectory Prior

論文の概要: RopeTP: Global Human Motion Recovery via Integrating Robust Pose Estimation with Diffusion Trajectory Prior

arxiv url: http://arxiv.org/abs/2410.20358v2
Date: Fri, 01 Nov 2024 09:20:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:40.947486
Title: RopeTP: Global Human Motion Recovery via Integrating Robust Pose Estimation with Diffusion Trajectory Prior
Title（参考訳）: RopeTP:ロバストポーズ推定と拡散軌道の事前統合による世界的人間の運動回復
Authors: Mingjiang Liang, Yongkang Cheng, Hualin Liang, Shaoli Huang, Wei Liu,
Abstract要約: RopeTPは,ロバストポーズ推定と拡散軌道を組み合わせた新しいフレームワークである。 RopeTPは2つのベンチマークデータセットの現在のメソッドを上回っている。
参考スコア（独自算出の注目度）: 10.093695199050071
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present RopeTP, a novel framework that combines Robust pose estimation with a diffusion Trajectory Prior to reconstruct global human motion from videos. At the heart of RopeTP is a hierarchical attention mechanism that significantly improves context awareness, which is essential for accurately inferring the posture of occluded body parts. This is achieved by exploiting the relationships with visible anatomical structures, enhancing the accuracy of local pose estimations. The improved robustness of these local estimations allows for the reconstruction of precise and stable global trajectories. Additionally, RopeTP incorporates a diffusion trajectory model that predicts realistic human motion from local pose sequences. This model ensures that the generated trajectories are not only consistent with observed local actions but also unfold naturally over time, thereby improving the realism and stability of 3D human motion reconstruction. Extensive experimental validation shows that RopeTP surpasses current methods on two benchmark datasets, particularly excelling in scenarios with occlusions. It also outperforms methods that rely on SLAM for initial camera estimates and extensive optimization, delivering more accurate and realistic trajectories.
Abstract（参考訳）: 本稿では,ロバストポーズ推定と拡散軌道を組み合わせた新しいフレームワークであるRopeTPについて述べる。 RopeTPの核心は、コンテキスト認識を著しく改善する階層的な注意機構であり、閉塞した身体部位の姿勢を正確に推定するのに必須である。これは、目に見える解剖学的構造との関係を利用して、局所的なポーズ推定の精度を高めることで達成される。これらの局所推定のロバスト性の改善により、精密で安定した大域軌跡の再構築が可能となる。さらに、RopeTPは、局所的なポーズシーケンスから現実的な人間の動きを予測する拡散軌道モデルを組み込んでいる。このモデルは、生成された軌道が観測された局所的な動きと一致しているだけでなく、時間とともに自然に広がることを保証する。大規模な実験的検証により、RopeTPは2つのベンチマークデータセットの現在のメソッドを上回り、特に閉塞のあるシナリオで優れていることが示された。また、初期のカメラ推定と広範囲の最適化のためにSLAMに依存する手法を上回り、より正確でリアルな軌道を提供する。

関連論文リスト

StarPose: 3D Human Pose Estimation via Spatial-Temporal Autoregressive Diffusion [29.682018018059043]
StarPoseは3次元人間のポーズ推定のための自己回帰拡散フレームワークである。歴史的3Dポーズの予測と空間的物理的ガイダンスが組み込まれている。人間の3次元ポーズ推定における精度と時間的一貫性を向上する。
論文参考訳（メタデータ） (2025-08-04T04:50:05Z)
VST-Pose: A Velocity-Integrated Spatiotem-poral Attention Network for Human WiFi Pose Estimation [10.371863139473456]
VST-Poseは、WiFiチャネルの状態情報を用いた正確なポーズ推定のための新しいフレームワークである。提案手法はPCK@50の精度を92.2%向上し,PCK@50の精度を8.3%向上させた。提案システムは,室内環境下での連続した人間の動作分析のための信頼性とプライバシを意識したソリューションを提供する。
論文参考訳（メタデータ） (2025-07-13T15:11:18Z)
EMoTive: Event-guided Trajectory Modeling for 3D Motion Estimation [59.33052312107478]
イベントカメラは、シーン変化に対する連続的適応ピクセルレベル応答による3次元モーション推定の可能性を提供する。本稿では,イベント誘導パラメトリック曲線を用いた一様軌道をモデル化するイベントベースフレームワークであるEMoveについて述べる。動作表現には,事象誘導下での空間的特徴と時間的特徴を融合する密度認識適応機構を導入する。最終3次元運動推定は、パラメトリック軌道、流れ、深度運動場の多時間サンプリングによって達成される。
論文参考訳（メタデータ） (2025-03-14T13:15:54Z)
Optimizing Local-Global Dependencies for Accurate 3D Human Pose Estimation [2.1330933342577096]
SSR-STFは,局所的な特徴をグローバルな依存関係と統合し,人間の3次元ポーズ推定を強化する2重ストリームモデルである。具体的には,SSRFormerについて紹介する。SSRFormerは,スケルトン選択的精細注意(SSRA)機構を用いて,局所的なきめ細かい依存関係を捕捉するシンプルなモジュールである。 Human3.6M と MPI-INF-3DHP のデータセットの実験では、SSR-STF がそれぞれ37.4 mm と 13.2 mm の誤差で最先端のパフォーマンスを達成した。
論文参考訳（メタデータ） (2024-12-27T14:54:12Z)
An Efficient Occupancy World Model via Decoupled Dynamic Flow and Image-assisted Training [50.71892161377806]
DFIT-OccWorldは、分離されたダイナミックフローとイメージアシストトレーニング戦略を活用する、効率的な3D占有世界モデルである。提案モデルでは, 静止ボクセルはポーズ変換により容易に得られるのに対し, 既存のボクセルフローを用いて既存の観測を歪曲することで, 将来のダイナミックボクセルを予測できる。
論文参考訳（メタデータ） (2024-12-18T12:10:33Z)
Towards Practical Human Motion Prediction with LiDAR Point Clouds [15.715130864327792]
我々は,最初のシングルLiDARに基づく3次元人体動作予測手法であるtextitLiDAR-HMPを提案する。 LiDAR-HMPは、入力として生のLiDARポイントクラウドを受け取り、将来の3D人間のポーズを直接予測する。提案手法は,2つの公開ベンチマーク上での最先端性能を実現し,実世界の展開において顕著な堅牢性と有効性を示す。
論文参考訳（メタデータ） (2024-08-15T15:10:01Z)
Tracking and Reconstructing Hand Object Interactions from Point Cloud Sequences in the Wild [35.55753131098285]
本稿では,手関節運動を推定するために,点クラウドを用いた手関節追跡ネットワークであるHandTrackNetを提案する。このパイプラインは,予測ハンドジョイントをテンプレートベースパラメトリックハンドモデルMANOに変換することで,全ハンドを再構築する。オブジェクトトラッキングでは,オブジェクトSDFを第1フレームから推定し,最適化に基づくトラッキングを行う,シンプルで効果的なモジュールを考案する。
論文参考訳（メタデータ） (2022-09-24T13:40:09Z)
RNNPose: Recurrent 6-DoF Object Pose Refinement with Robust Correspondence Field Estimation and Pose Optimization [46.144194562841435]
本稿では、オブジェクトポーズ改善のためのリカレントニューラルネットワーク(RNN)に基づくフレームワークを提案する。この問題は、推定対応フィールドに基づいて非線形最小二乗問題として定式化される。各イテレーションにおいて、対応フィールド推定とポーズ精錬を代替して行い、正確なオブジェクトポーズを復元する。
論文参考訳（メタデータ） (2022-03-24T06:24:55Z)
Dynamic Iterative Refinement for Efficient 3D Hand Pose Estimation [87.54604263202941]
本稿では,従来の推定値の修正に部分的レイヤを反復的に活用する,小さなディープニューラルネットワークを提案する。学習したゲーティング基準を用いて、ウェイトシェアリングループから抜け出すかどうかを判断し、モデルにサンプルごとの適応を可能にする。提案手法は,広く使用されているベンチマークの精度と効率の両面から,最先端の2D/3Dハンドポーズ推定手法より一貫して優れている。
論文参考訳（メタデータ） (2021-11-11T23:31:34Z)
Improving Robustness and Accuracy via Relative Information Encoding in 3D Human Pose Estimation [59.94032196768748]
位置および時間的拡張表現を出力する相対情報符号化法を提案する。提案手法は2つの公開データセット上で最先端の手法より優れている。
論文参考訳（メタデータ） (2021-07-29T14:12:19Z)
Learning Dynamics via Graph Neural Networks for Human Pose Estimation and Tracking [98.91894395941766]
ポーズ検出とは無関係なポーズダイナミクスを学習する新しいオンライン手法を提案する。具体的には、空間的・時間的情報と視覚的情報の両方を明示的に考慮したグラフニューラルネットワーク(GNN)を通して、このダイナミクスの予測を導出する。 PoseTrack 2017とPoseTrack 2018データセットの実験では、提案手法が人間のポーズ推定とトラッキングタスクの両方において、技術の現状よりも優れた結果が得られることを示した。
論文参考訳（メタデータ） (2021-06-07T16:36:50Z)
Locally Aware Piecewise Transformation Fields for 3D Human Mesh Registration [67.69257782645789]
本論文では,3次元変換ベクトルを学習し,提案空間内の任意のクエリ点をリザーブ空間内の対応する位置にマップする部分変換場を提案する。パラメトリックモデルにネットワークのポーズを合わせることで、特に極端なポーズにおいて、より優れた登録品質が得られることを示す。
論文参考訳（メタデータ） (2021-04-16T15:16:09Z)
Selective Spatio-Temporal Aggregation Based Pose Refinement System: Towards Understanding Human Activities in Real-World Videos [8.571131862820833]
最先端のポーズ推定装置は、現実世界の無注釈ビデオにおいて、乱れと低解像度のために高品質な2Dまたは3Dポーズデータを取得するのに苦労している。本稿では,複数の専門家のポーズ推定器によって抽出されたキーポイント位置を洗練・平滑化するSST-Aという選択的時空間アグリゲーション機構を提案する。本研究では, Pose-Refinement System (SSTA-PRS) によって改良された骨格データが,既存の行動認識モデルの強化に有効であることを示す。
論文参考訳（メタデータ） (2020-11-10T19:19:51Z)
Kinematic-Structure-Preserved Representation for Unsupervised 3D Human Pose Estimation [58.72192168935338]
大規模インスタディオデータセットの監視を用いて開発された人間のポーズ推定モデルの一般化可能性については疑問が残る。本稿では,2対あるいは2対の弱い監督者によって抑制されない,新しいキネマティック構造保存型非教師付き3次元ポーズ推定フレームワークを提案する。提案モデルでは,前方運動学,カメラ投影,空間マップ変換という3つの連続的な微分可能変換を用いる。
論文参考訳（メタデータ） (2020-06-24T23:56:33Z)
Consistency Guided Scene Flow Estimation [159.24395181068218]
CGSFは立体映像からの3次元シーン構造と動きの同時再構成のための自己教師型フレームワークである。提案モデルでは,課題の画像の相違やシーンフローを確実に予測できることを示す。最先端技術よりも優れた一般化を実現し、目に見えない領域に迅速かつ堅牢に適応する。
論文参考訳（メタデータ） (2020-06-19T17:28:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。