論文の概要: Beyond Static Frames: Temporal Aggregate-and-Restore Vision Transformer for Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2603.05929v1
- Date: Fri, 06 Mar 2026 05:45:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.113725
- Title: Beyond Static Frames: Temporal Aggregate-and-Restore Vision Transformer for Human Pose Estimation
- Title(参考訳): 静的フレームを超えて:人間の姿勢推定のための時間的アグリゲート・アンド・レストア視覚変換器
- Authors: Hongwei Fang, Jiahang Cai, Xun Wang, Wenwu Yang,
- Abstract要約: 視覚変換器(ViT)は近年,2次元人間のポーズ推定において最先端の性能を達成した。
TAR-ViTPoseは、フレーム間の時間的キューをプラグアンドプレイで集約することで、静的なViT表現を強化する。
我々の手法は、既存の最先端のビデオベースの手法よりも優れており、実世界のアプリケーションでは明らかに高いランタイムフレームレートを実現している。
- 参考スコア(独自算出の注目度): 7.63512442757446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers (ViTs) have recently achieved state-of-the-art performance in 2D human pose estimation due to their strong global modeling capability. However, existing ViT-based pose estimators are designed for static images and process each frame independently, thereby ignoring the temporal coherence that exists in video sequences. This limitation often results in unstable predictions, especially in challenging scenes involving motion blur, occlusion, or defocus. In this paper, we propose TAR-ViTPose, a novel Temporal Aggregate-and-Restore Vision Transformer tailored for video-based 2D human pose estimation. TAR-ViTPose enhances static ViT representations by aggregating temporal cues across frames in a plug-and-play manner, leading to more robust and accurate pose estimation. To effectively aggregate joint-specific features that are temporally aligned across frames, we introduce a joint-centric temporal aggregation (JTA) that assigns each joint a learnable query token to selectively attend to its corresponding regions from neighboring frames. Furthermore, we develop a global restoring attention (GRA) to restore the aggregated temporal features back into the token sequence of the current frame, enriching its pose representation while fully preserving global context for precise keypoint localization. Extensive experiments demonstrate that TAR-ViTPose substantially improves upon the single-frame baseline ViTPose, achieving a +2.3 mAP gain on the PoseTrack2017 benchmark. Moreover, our approach outperforms existing state-of-the-art video-based methods, while also achieving a noticeably higher runtime frame rate in real-world applications. Project page: https://github.com/zgspose/TARViTPose.
- Abstract(参考訳): 視覚変換器(ViT)は近年,その強力なグローバルモデリング能力により,人間の2次元ポーズ推定において最先端の性能を達成した。
しかし、既存のViTベースのポーズ推定器は静止画像用に設計され、各フレームを独立に処理することで、ビデオシーケンスに存在する時間的コヒーレンスを無視している。
この制限はしばしば不安定な予測をもたらし、特に動きのぼやけ、閉塞、デフォーカスを含む挑戦的な場面で顕著である。
本稿では,ビデオベースの2次元ポーズ推定に適したテンポラルアグリゲート・アンド・レストア視覚変換器であるTAR-ViTPoseを提案する。
TAR-ViTPoseは、フレーム間の時間的キューをプラグアンドプレイで集約することで静的なViT表現を強化し、より堅牢で正確なポーズ推定を実現する。
フレーム間を時間的に整列する結合特化特徴を効果的に集約するために,各結合に学習可能なクエリトークンを割り当てて,隣接するフレームから対応する領域に選択的に出席するジョイント中心時間アグリゲーション(JTA)を導入する。
さらに,集約された時間的特徴を現在のフレームのトークンシーケンスに復元するグローバル復元注意(GRA)を開発し,そのポーズ表現を豊かにするとともに,正確なキーポイントローカライゼーションのためのグローバルコンテキストを完全に保存する。
大規模な実験により、TAR-ViTPoseはシングルフレームのViTPoseで大幅に改善され、PoseTrack2017ベンチマークで+2.3 mAPゲインを達成した。
さらに,本手法は,既存の映像ベースの手法よりも優れており,実世界のアプリケーションにおける実行時のフレームレートも著しく向上している。
プロジェクトページ: https://github.com/zgspose/TARViTPose.com
関連論文リスト
- StableDPT: Temporal Stable Monocular Video Depth Estimation [14.453483279783908]
本稿では,最新の画像ベース(深度)推定モデルをビデオ処理に適用する手法を提案する。
我々のアーキテクチャは、市販のViTエンコーダ上に構築され、Dense Prediction Transformer (DPT) ヘッドが強化されている。
複数のベンチマークデータセットに対する評価では、リアルタイムシナリオにおける時間的一貫性の向上、最先端のパフォーマンスの競争力、および上位2倍高速な処理が示されている。
論文 参考訳(メタデータ) (2026-01-06T08:02:14Z) - Learning Spatio-Temporal Feature Representations for Video-Based Gaze Estimation [50.05866669110754]
映像に基づく視線推定手法は、複数の画像フレームから人間の視線の本質的な時間的ダイナミクスを捉えることを目的としている。
本稿では、CNNバックボーンと専用のチャンネルアテンションと自己注意モジュールを組み合わせたモデルであるSpatio-Temporal Gaze Network(ST-Gaze)を提案する。
そこで本研究では,ST-Gazeが個人固有の適応を伴わずとも最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2025-12-19T15:15:58Z) - End-to-End Multi-Person Pose Estimation with Pose-Aware Video Transformer [7.19764062839405]
ビデオにおける多人数2Dポーズ推定のためのエンドツーエンドフレームワークを提案する。
鍵となる課題は、複雑な時間軌道と重なり合う時間軌道の下で、個人をフレーム全体で関連付けることである。
本稿では,フレーム内関係と時間デコーダのポーズをモデル化するための空間エンコーダを備えた新しいPose-Aware VideoErEr Network(PAVE-Net)を提案する。
論文 参考訳(メタデータ) (2025-11-17T10:19:35Z) - Towards Robust and Generalizable Continuous Space-Time Video Super-Resolution with Events [71.2439653098351]
連続時空ビデオスーパーSTVSRは、高解像度で高フレームのビデオを任意の時間スケールで再構成する能力への関心が高まっている。
EvEnhancerは、イベントストリームにカプセル化された高時間および高ダイナミックレンジのユニークな特性を結合する新しいアプローチである。
提案手法は,OODスケールでの一般化性を維持しつつ,合成および実世界の両方のデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-10-04T15:23:07Z) - Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better [61.381599921020175]
時間的一貫性は、出力が一貫性があり、アーティファクトがないことを保証するために、ビデオ予測において重要である。
時間的注意や3D畳み込みといった伝統的な手法は、重要な物体の動きに苦しむことがある。
本稿では,ポイントトラックを用いた動き情報を明示的に統合する新しいアーキテクチャコンポーネントであるトラックキート・レイヤを提案する。
論文 参考訳(メタデータ) (2025-03-25T17:58:48Z) - SpatioTemporal Learning for Human Pose Estimation in Sparsely-Labeled Videos [18.37601213802529]
STDPoseは、疎ラベルビデオの学習による人間のポーズ推定を強化する新しいフレームワークである。
STDPoseは、ビデオポーズ伝搬(ラベル付きフレームからラベル付きフレームへのポーズの伝播)とポーズ推定タスクの両方のための新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2025-01-25T04:43:12Z) - Poseidon: A ViT-based Architecture for Multi-Frame Pose Estimation with Adaptive Frame Weighting and Multi-Scale Feature Fusion [43.59385149982744]
単一フレームのポーズ推定は大きな進歩を遂げているが、複雑な連続的な動きを理解するために時間的ダイナミクスを捉えるのに失敗することが多い。
時間情報を統合することでViTPoseモデルを拡張する新しい多フレームポーズ推定アーキテクチャであるPoseidonを提案する。
提案手法は,PoseTrack21とPoseTrack18データセットの最先端性能を実現し,それぞれ88.3と87.8のmAPスコアを得た。
論文 参考訳(メタデータ) (2025-01-14T21:34:34Z) - TAPIR: Tracking Any Point with per-frame Initialization and temporal
Refinement [64.11385310305612]
本稿では,ビデオシーケンスを通して任意の物理面上の問合せ点を効果的に追跡する,TAP(Tracking Any Point)の新しいモデルを提案する。
提案手法では,(1)他のフレームの問合せ点に対する適切な候補点マッチングを独立に特定するマッチング段階と,(2)局所的相関に基づいてトラジェクトリと問合せの両方を更新する改良段階の2段階を用いる。
結果として得られたモデルは、DAVISにおける平均約20%の絶対平均ジャカード(AJ)改善によって示されるように、TAP-Vidベンチマークにおける大きなマージンで、すべてのベースライン手法を上回ります。
論文 参考訳(メタデータ) (2023-06-14T17:07:51Z) - A Unified Framework for Event-based Frame Interpolation with Ad-hoc Deblurring in the Wild [72.0226493284814]
本稿では,デブロリングアドホックを行うイベントベースフレームの統一フレームワークを提案する。
我々のネットワークは、フレーム上の従来の最先端の手法、単一画像のデブロアリング、および両者のジョイントタスクを一貫して上回ります。
論文 参考訳(メタデータ) (2023-01-12T18:19:00Z) - Stand-Alone Inter-Frame Attention in Video Models [164.06137994796487]
フレーム間アテンションブロック,すなわちスタンドアローン時空間アテンション(SIFA)の新たなレシピを提案する。
SIFAは、2つのフレームの違いによってオフセット予測を再スケーリングすることで、変形可能な設計を再構築する。
さらに、SIFAブロックをConvNetsとVision Transformerにプラグインし、SIFA-NetとSIFA-Transformerを考案する。
論文 参考訳(メタデータ) (2022-06-14T15:51:28Z) - Temporal Feature Alignment and Mutual Information Maximization for
Video-Based Human Pose Estimation [38.571715193347366]
マルチフレーム人間のポーズ推定のための新しい階層的アライメントフレームワークを提案する。
ベンチマークデータセットのPoseTrack 2017では、マルチフレームPerson Pose Estimation Challengeの1位にランクインし、ベンチマークのSub-JHMDBとPose-Track 2018では最先端のパフォーマンスを得ています。
論文 参考訳(メタデータ) (2022-03-29T04:29:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。