論文の概要: H$_{2}$OT: Hierarchical Hourglass Tokenizer for Efficient Video Pose Transformers
- arxiv url: http://arxiv.org/abs/2509.06956v1
- Date: Mon, 08 Sep 2025 17:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.309894
- Title: H$_{2}$OT: Hierarchical Hourglass Tokenizer for Efficient Video Pose Transformers
- Title(参考訳): H$_{2}$OT:効率的なビデオポッドトランスのための階層型フールグラストケナイザ
- Authors: Wenhao Li, Mengyuan Liu, Hong Liu, Pichao Wang, Shijian Lu, Nicu Sebe,
- Abstract要約: Heerarchical Hourglass Tokenizer (H$_2$OT) と呼ばれる階層的なプラグアンドプレイプルーニング&ドル回復フレームワークを提案する。
提案手法は汎用的であり,Seq2seqおよびSeq2frameパイプラインの共通VPTモデルに容易に組み込むことができる。
- 参考スコア(独自算出の注目度): 124.11648300910444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have been successfully applied in the field of video-based 3D human pose estimation. However, the high computational costs of these video pose transformers (VPTs) make them impractical on resource-constrained devices. In this paper, we present a hierarchical plug-and-play pruning-and-recovering framework, called Hierarchical Hourglass Tokenizer (H$_{2}$OT), for efficient transformer-based 3D human pose estimation from videos. H$_{2}$OT begins with progressively pruning pose tokens of redundant frames and ends with recovering full-length sequences, resulting in a few pose tokens in the intermediate transformer blocks and thus improving the model efficiency. It works with two key modules, namely, a Token Pruning Module (TPM) and a Token Recovering Module (TRM). TPM dynamically selects a few representative tokens to eliminate the redundancy of video frames, while TRM restores the detailed spatio-temporal information based on the selected tokens, thereby expanding the network output to the original full-length temporal resolution for fast inference. Our method is general-purpose: it can be easily incorporated into common VPT models on both seq2seq and seq2frame pipelines while effectively accommodating different token pruning and recovery strategies. In addition, our H$_{2}$OT reveals that maintaining the full pose sequence is unnecessary, and a few pose tokens of representative frames can achieve both high efficiency and estimation accuracy. Extensive experiments on multiple benchmark datasets demonstrate both the effectiveness and efficiency of the proposed method. Code and models are available at https://github.com/NationalGAILab/HoT.
- Abstract(参考訳): トランスフォーマーはビデオベースの人間のポーズ推定の分野でうまく応用されている。
しかし、これらのビデオポーズ変換器(VPT)の計算コストが高いため、リソース制約のあるデバイスでは実用的ではない。
本稿では,効率的なトランスフォーマーに基づく3次元ポーズ推定のための階層型プラグアンドプレイプルーニング・リカバリフレームワークであるHierarchical Hourglass Tokenizer(H$_{2}$OT)を提案する。
H$_{2}$OTは、冗長なフレームのポーズトークンを徐々に刈り上げ、最後にフル長のシーケンスを復元することで、中間トランスフォーマーブロックに数個のポーズトークンを発生させ、モデル効率を向上する。
Token Pruning Module (TPM) と Token Recovering Module (TRM) の2つの主要なモジュールで動作する。
TPMはビデオフレームの冗長性をなくすためにいくつかの代表トークンを動的に選択し、TRMは選択したトークンに基づいて詳細な時空間情報を復元し、高速推論のためにネットワーク出力を元のフル長時空間分解に拡張する。
本手法は,シーク2セクおよびシーク2フレームパイプラインの共通VPTモデルに容易に組み込むことができ,トークンのプルーニングとリカバリを効果的に行うことができる。
さらに、H$_{2}$OTは、フルポーズシーケンスの維持は不要であり、いくつかの代表フレームのポーズトークンは高い効率と推定精度を達成できることを示した。
複数のベンチマークデータセットに対する大規模な実験は、提案手法の有効性と効率性を実証している。
コードとモデルはhttps://github.com/NationalGAILab/HoT.comで入手できる。
関連論文リスト
- Towards Scalable Modeling of Compressed Videos for Efficient Action Recognition [6.168286187549952]
提案するハイブリッドなエンドツーエンドフレームワークは,3つの重要な概念にまたがって学習を分解し,推論コストを先行技術に対して330倍に削減する。
実験により,本手法は最先端のビデオ認識性能を実現する軽量なアーキテクチャを実現することが示された。
論文 参考訳(メタデータ) (2025-03-17T21:13:48Z) - Efficient Point Transformer with Dynamic Token Aggregating for LiDAR Point Cloud Processing [19.73918716354272]
LiDARポイントクラウド処理と解析は、3Dトランスの開発によって大きな進歩を遂げた。
既存の3Dトランスフォーマー法は通常、計算コストが高く、大きな注意マップと冗長な注意マップのために非効率である。
ポイントクラウド表現と処理のための動的トークン集約(DTA-Former)を用いた効率的なポイントトランスフォーマーを提案する。
論文 参考訳(メタデータ) (2024-05-23T20:50:50Z) - Hourglass Tokenizer for Efficient Transformer-Based 3D Human Pose Estimation [73.31524865643709]
本稿では,Hourglass Tokenizer (HoT) と呼ばれるプラグアンドプレイのプルーニング・アンド・リカバリフレームワークを提案する。
私たちのHoDTは、冗長なフレームのポーズトークンのプルーニングから始まり、フル長のトークンを復元することで終了します。
提案手法は,従来のVPTモデルと比較して高い効率性と推定精度を両立させることができる。
論文 参考訳(メタデータ) (2023-11-20T18:59:51Z) - Efficient Video Action Detection with Token Dropout and Context
Refinement [67.10895416008911]
効率的なビデオアクション検出(ViT)のためのエンドツーエンドフレームワークを提案する。
ビデオクリップでは、他のフレームからのアクターの動きに関連するトークンを保存しながら、その視点でトークンを維持する。
第二に、残ったトークンを利用してシーンコンテキストを洗練し、アクターのアイデンティティをよりよく認識する。
論文 参考訳(メタデータ) (2023-04-17T17:21:21Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - VideoLightFormer: Lightweight Action Recognition using Transformers [8.871042314510788]
本稿では,新しい軽量なアクション認識アーキテクチャであるVideoLightFormerを提案する。
分解された方法で、2次元畳み込み時間ネットワークを変換器で慎重に拡張する。
我々は,EPIC-KITCHENS-100とSone-SV-V-Something2データセットの高効率設定におけるビデオLightFormerの評価を行った。
論文 参考訳(メタデータ) (2021-07-01T13:55:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。