論文の概要: SpatioTemporal Learning for Human Pose Estimation in Sparsely-Labeled Videos
- arxiv url: http://arxiv.org/abs/2501.15073v1
- Date: Sat, 25 Jan 2025 04:43:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:56:45.007255
- Title: SpatioTemporal Learning for Human Pose Estimation in Sparsely-Labeled Videos
- Title(参考訳): スパースラベル映像における時空間学習による人文推定
- Authors: Yingying Jiao, Zhigang Wang, Sifan Wu, Shaojing Fan, Zhenguang Liu, Zhuoyue Xu, Zheqi Wu,
- Abstract要約: STDPoseは、疎ラベルビデオの学習による人間のポーズ推定を強化する新しいフレームワークである。
STDPoseは、ビデオポーズ伝搬(ラベル付きフレームからラベル付きフレームへのポーズの伝播)とポーズ推定タスクの両方のための新しいベンチマークを確立する。
- 参考スコア(独自算出の注目度): 18.37601213802529
- License:
- Abstract: Human pose estimation in videos remains a challenge, largely due to the reliance on extensive manual annotation of large datasets, which is expensive and labor-intensive. Furthermore, existing approaches often struggle to capture long-range temporal dependencies and overlook the complementary relationship between temporal pose heatmaps and visual features. To address these limitations, we introduce STDPose, a novel framework that enhances human pose estimation by learning spatiotemporal dynamics in sparsely-labeled videos. STDPose incorporates two key innovations: 1) A novel Dynamic-Aware Mask to capture long-range motion context, allowing for a nuanced understanding of pose changes. 2) A system for encoding and aggregating spatiotemporal representations and motion dynamics to effectively model spatiotemporal relationships, improving the accuracy and robustness of pose estimation. STDPose establishes a new performance benchmark for both video pose propagation (i.e., propagating pose annotations from labeled frames to unlabeled frames) and pose estimation tasks, across three large-scale evaluation datasets. Additionally, utilizing pseudo-labels generated by pose propagation, STDPose achieves competitive performance with only 26.7% labeled data.
- Abstract(参考訳): ビデオにおける人間のポーズ推定は、大部分は高価で労働集約的な大規模なデータセットの広範な手動アノテーションに依存しているため、依然として課題である。
さらに、既存のアプローチは、長い時間的依存関係を捉え、時間的ポーズのヒートマップと視覚的特徴の相補的な関係を見落としていることが多い。
これらの制約に対処するために,スプリスラベルビデオの時空間ダイナミクスを学習することで人間のポーズ推定を強化する新しいフレームワークSTDPoseを導入する。
STDPoseは2つの重要なイノベーションを取り入れている。
1) ポーズ変化の微妙な理解を可能にする,長距離動きのコンテキストを捉えた新しいダイナミック・アウェア・マスク。
2)時空間表現と運動力学を符号化・集約し,時空間関係を効果的にモデル化し,ポーズ推定の精度と堅牢性を向上させるシステム。
STDPoseは、ビデオポーズの伝搬(ラベル付きフレームからラベル付きフレームへのポーズアノテーションの伝播)と3つの大規模評価データセット間のポーズ推定タスクの両方のための新しいパフォーマンスベンチマークを確立する。
さらに、ポーズ伝搬によって生成された擬似ラベルを利用して、STDPoseは26.7%のラベル付きデータで競合性能を達成する。
関連論文リスト
- Generative Hierarchical Temporal Transformer for Hand Pose and Action Modeling [67.94143911629143]
ハンドポーズとアクションをモデル化するための生成型Transformer VAEアーキテクチャを提案する。
手ポーズとアクションのセマンティックな依存性と時間的粒度を忠実にモデル化するために、我々はこのフレームワークを2つのケース化されたVAEブロックに分解する。
その結果,独立解よりも認識と予測の連成モデリングが向上することが示唆された。
論文 参考訳(メタデータ) (2023-11-29T05:28:39Z) - DiffPose: SpatioTemporal Diffusion Model for Video-Based Human Pose
Estimation [16.32910684198013]
本稿では、条件付きヒートマップ生成問題として、ビデオに基づく人間のポーズ推定を定式化する新しい拡散アーキテクチャDiffPoseを提案する。
ポーズ推定タスクにおけるDiffPoseの特徴として,(i)複数のポーズ推定を組み合わせて予測精度を向上させる能力,(ii)モデルを再訓練することなく特徴改善のための反復的なステップ数を調整する能力,の2点を挙げる。
論文 参考訳(メタデータ) (2023-07-31T14:00:23Z) - Mutual Information-Based Temporal Difference Learning for Human Pose
Estimation in Video [16.32910684198013]
本稿では,動的コンテキストをモデル化するために,フレーム間の時間差を利用した新しいヒューマンポーズ推定フレームワークを提案する。
具体的には、多段階差分を条件とした多段階絡み合い学習シーケンスを設計し、情報的動作表現シーケンスを導出する。
以下は、HiEveベンチマークで、複合イベントチャレンジにおけるクラウドポーズ推定において、第1位にランク付けします。
論文 参考訳(メタデータ) (2023-03-15T09:29:03Z) - Hierarchical Temporal Transformer for 3D Hand Pose Estimation and Action
Recognition from Egocentric RGB Videos [50.74218823358754]
我々は,時間的情報を利用してロバストな推定を行うトランスフォーマーベースのフレームワークを開発した。
2つのカスケード変換器エンコーダを用いたネットワーク階層を構築し,まず手振り推定の短期的キューを利用する。
提案手法は,FPHAとH2Oの2つの個人手動作ベンチマークにおいて競合する結果を得る。
論文 参考訳(メタデータ) (2022-09-20T05:52:54Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Learning Dynamics via Graph Neural Networks for Human Pose Estimation
and Tracking [98.91894395941766]
ポーズ検出とは無関係なポーズダイナミクスを学習する新しいオンライン手法を提案する。
具体的には、空間的・時間的情報と視覚的情報の両方を明示的に考慮したグラフニューラルネットワーク(GNN)を通して、このダイナミクスの予測を導出する。
PoseTrack 2017とPoseTrack 2018データセットの実験では、提案手法が人間のポーズ推定とトラッキングタスクの両方において、技術の現状よりも優れた結果が得られることを示した。
論文 参考訳(メタデータ) (2021-06-07T16:36:50Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Deep Dual Consecutive Network for Human Pose Estimation [44.41818683253614]
キーポイント検出を容易にするために,ビデオフレーム間の時間的キューを豊富に活用した,新しいマルチフレーム人間ポーズ推定フレームワークを提案する。
本手法は、PoseTrack 2017およびPoseTrack 2018の大規模ベンチマークデータセットにおけるマルチフレームパーソンポースチャレンジチャレンジで1位にランクインします。
論文 参考訳(メタデータ) (2021-03-12T13:11:27Z) - Kinematic-Structure-Preserved Representation for Unsupervised 3D Human
Pose Estimation [58.72192168935338]
大規模インスタディオデータセットの監視を用いて開発された人間のポーズ推定モデルの一般化可能性については疑問が残る。
本稿では,2対あるいは2対の弱い監督者によって抑制されない,新しいキネマティック構造保存型非教師付き3次元ポーズ推定フレームワークを提案する。
提案モデルでは,前方運動学,カメラ投影,空間マップ変換という3つの連続的な微分可能変換を用いる。
論文 参考訳(メタデータ) (2020-06-24T23:56:33Z) - A Graph Attention Spatio-temporal Convolutional Network for 3D Human
Pose Estimation in Video [7.647599484103065]
我々は,アテンション機構を用いた局所的グローバル空間情報のモデリングにより,人間の骨格における制約の学習を改善する。
提案手法は, 奥行きのあいまいさと自己閉塞性を効果的に軽減し, 半上半身推定を一般化し, 2次元から3次元映像のポーズ推定における競合性能を実現する。
論文 参考訳(メタデータ) (2020-03-11T14:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。