論文の概要: Multi-Resolution Haar Network: Enhancing human motion prediction via Haar transform
- arxiv url: http://arxiv.org/abs/2505.12631v1
- Date: Mon, 19 May 2025 02:38:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.359848
- Title: Multi-Resolution Haar Network: Enhancing human motion prediction via Haar transform
- Title(参考訳): マルチリゾリューション・ハールネットワーク:ハール変換による人間の動き予測の強化
- Authors: Li Lin,
- Abstract要約: 3次元人間のポーズ予測は、前回のシーケンスから人間の将来の動きを予測することを目的としている。
人間の動き列の任意性は、時間軸と空間軸の両方における遷移の確固たる起源を持っていることを無視することは、最先端の手法の性能を制限している。
本稿では,2次元Haar変換を用いて高分解能座標を投影するHaarMoDicというネットワークを提案する。
- 参考スコア(独自算出の注目度): 1.2076567852613118
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The 3D human pose is vital for modern computer vision and computer graphics, and its prediction has drawn attention in recent years. 3D human pose prediction aims at forecasting a human's future motion from the previous sequence. Ignoring that the arbitrariness of human motion sequences has a firm origin in transition in both temporal and spatial axes limits the performance of state-of-the-art methods, leading them to struggle with making precise predictions on complex cases, e.g., arbitrarily posing or greeting. To alleviate this problem, a network called HaarMoDic is proposed in this paper, which utilizes the 2D Haar transform to project joints to higher resolution coordinates where the network can access spatial and temporal information simultaneously. An ablation study proves that the significant contributing module within the HaarModic Network is the Multi-Resolution Haar (MR-Haar) block. Instead of mining in one of two axes or extracting separately, the MR-Haar block projects whole motion sequences to a mixed-up coordinate in higher resolution with 2D Haar Transform, allowing the network to give scope to information from both axes in different resolutions. With the MR-Haar block, the HaarMoDic network can make predictions referring to a broader range of information. Experimental results demonstrate that HaarMoDic surpasses state-of-the-art methods in every testing interval on the Human3.6M dataset in the Mean Per Joint Position Error (MPJPE) metric.
- Abstract(参考訳): 3Dの人間のポーズは現代のコンピュータビジョンとコンピュータグラフィックスにとって不可欠であり、その予測は近年注目を集めている。
3次元人間のポーズ予測は、前回のシーケンスから人間の将来の動きを予測することを目的としている。
人間の動き列の任意性は、時間軸と空間軸の両方の遷移の確かな起源があることを無視して、最先端の手法のパフォーマンスを制限し、複雑なケース(例えば、任意のポーズや挨拶など)で正確な予測を行うのに苦労する。
そこで本論文では,空間情報と時間情報を同時にアクセス可能な高分解能座標に2次元Haar変換を投射するHaarMoDicというネットワークを提案する。
アブレーション研究では、HaarModic Network内の重要な寄与モジュールがMulti-Resolution Haar(MR-Haar)ブロックであることが示された。
2つの軸のうちの1つをマイニングしたり、別々に抽出する代わりに、MR-ハールブロックは2Dハール変換と高解像度の混合座標に全運動列を投影し、異なる解像度の2つの軸からの情報にネットワークがスコープを与える。
MR-Haarブロックにより、HaarMoDicネットワークはより広い範囲の情報を参照して予測を行うことができる。
実験の結果,HarMoDicは平均的関節位置誤差(MPJPE)のHuman3.6Mデータセットの試験間隔毎に,最先端の手法を超越していることがわかった。
関連論文リスト
- Diff-IP2D: Diffusion-Based Hand-Object Interaction Prediction on Egocentric Videos [22.81433371521832]
そこで我々は,Diff-IP2Dを提案する。
提案手法は,市販のメトリクスと新たに提案した評価プロトコルの両方において,最先端のベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2024-05-07T14:51:05Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - Multi-Graph Convolution Network for Pose Forecasting [0.8057006406834467]
本稿では,3次元ポーズ予測のための多グラフ畳み込みネットワーク(MGCN)を提案する。
MGCNは、ポーズシーケンスのための拡張グラフを導入することで、空間情報と時間情報を同時にキャプチャする。
評価では,MGCNはポーズ予測において最先端の予測よりも優れていた。
論文 参考訳(メタデータ) (2023-04-11T03:59:43Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - MixSTE: Seq2seq Mixed Spatio-Temporal Encoder for 3D Human Pose
Estimation in Video [75.23812405203778]
近年, 学習時間相関のため, 全フレームのボディジョイントを世界規模で考慮し, 2次元キーポイントシーケンスから3次元人間のポーズを推定する手法が提案されている。
本研究では,各関節の時間的動きを別々にモデル化する時間的変圧器ブロックと,関節間空間相関を有する変圧器ブロックを有するミキシングミキシングを提案する。
さらに、ネットワーク出力は、中央フレームから入力ビデオの全フレームに拡張され、入力と出力のベンチマーク間のコヒーレンスが改善される。
論文 参考訳(メタデータ) (2022-03-02T04:20:59Z) - 3D Skeleton-based Human Motion Prediction with Manifold-Aware GAN [3.1313293632309827]
本研究では,3次元骨格を用いた人体動作予測の新しい手法を提案する。
我々は,人間の運動の時間的および空間的依存を捉える,多様体を意識したワッサーシュタイン生成逆数モデルを構築した。
CMU MoCapとHuman 3.6Mデータセットで実験が行われた。
論文 参考訳(メタデータ) (2022-03-01T20:49:13Z) - Investigating Pose Representations and Motion Contexts Modeling for 3D
Motion Prediction [63.62263239934777]
歴史的ポーズシーケンスから人間の動きを予測することは、機械が人間と知的な相互作用を成功させるために不可欠である。
本研究では,様々なポーズ表現に関する詳細な研究を行い,その動作予測課題に対する効果に着目した。
AHMR(Attentive Hierarchical Motion Recurrent Network)と呼ばれる新しいRNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-30T10:45:22Z) - Multi-Scale Networks for 3D Human Pose Estimation with Inference Stage
Optimization [33.02708860641971]
モノクロビデオから3Dのポーズを推定することは、まだまだ難しい課題だ。
既存の多くのメソッドは、対象の人が他のオブジェクトに干渉されたり、トレーニングデータのスケールや速度に対して動きが速すぎたり、遅くなったりすると低下する。
頑健な3次元ポーズ推定のための時間的ネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-13T15:24:28Z) - SSP-Net: Scalable Sequential Pyramid Networks for Real-Time 3D Human
Pose Regression [27.85790535227085]
高速でスケーラブルな畳み込みニューラルネットワークを,静止RGB画像からのリアルタイムな3次元ポーズ回帰のために提案する。
我々のネットワークは1つのトレーニング手順を必要とし、最高の予測を毎秒120フレームで作成することができる。
論文 参考訳(メタデータ) (2020-09-04T03:43:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。