論文の概要: Hourglass Tokenizer for Efficient Transformer-Based 3D Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2311.12028v2
- Date: Wed, 27 Mar 2024 11:43:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 22:42:58.885260
- Title: Hourglass Tokenizer for Efficient Transformer-Based 3D Human Pose Estimation
- Title(参考訳): 効率的な変圧器を用いた3次元人物位置推定のための時間ガラストケナイザ
- Authors: Wenhao Li, Mengyuan Liu, Hong Liu, Pichao Wang, Jialun Cai, Nicu Sebe,
- Abstract要約: 本稿では,Hourglass Tokenizer (HoT) と呼ばれるプラグアンドプレイのプルーニング・アンド・リカバリフレームワークを提案する。
私たちのHoDTは、冗長なフレームのポーズトークンのプルーニングから始まり、フル長のトークンを復元することで終了します。
提案手法は,従来のVPTモデルと比較して高い効率性と推定精度を両立させることができる。
- 参考スコア(独自算出の注目度): 73.31524865643709
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have been successfully applied in the field of video-based 3D human pose estimation. However, the high computational costs of these video pose transformers (VPTs) make them impractical on resource-constrained devices. In this paper, we present a plug-and-play pruning-and-recovering framework, called Hourglass Tokenizer (HoT), for efficient transformer-based 3D human pose estimation from videos. Our HoT begins with pruning pose tokens of redundant frames and ends with recovering full-length tokens, resulting in a few pose tokens in the intermediate transformer blocks and thus improving the model efficiency. To effectively achieve this, we propose a token pruning cluster (TPC) that dynamically selects a few representative tokens with high semantic diversity while eliminating the redundancy of video frames. In addition, we develop a token recovering attention (TRA) to restore the detailed spatio-temporal information based on the selected tokens, thereby expanding the network output to the original full-length temporal resolution for fast inference. Extensive experiments on two benchmark datasets (i.e., Human3.6M and MPI-INF-3DHP) demonstrate that our method can achieve both high efficiency and estimation accuracy compared to the original VPT models. For instance, applying to MotionBERT and MixSTE on Human3.6M, our HoT can save nearly 50% FLOPs without sacrificing accuracy and nearly 40% FLOPs with only 0.2% accuracy drop, respectively. Code and models are available at https://github.com/NationalGAILab/HoT.
- Abstract(参考訳): トランスフォーマーはビデオベースの人間のポーズ推定の分野でうまく応用されている。
しかし、これらのビデオポーズ変換器(VPT)の計算コストが高いため、リソース制約のあるデバイスでは実用的ではない。
本稿では,Hourglass Tokenizer (HoT) と呼ばれる,効率的なトランスフォーマーに基づく3次元ポーズ推定のためのプラグアンドプレイ・プルーニング・リカバリ・フレームワークを提案する。
我々のHoTは、冗長なフレームのポーズトークンのプルーニングから始まり、フル長のトークンを復元することで、中間トランスフォーマーブロックにいくつかのポーズトークンが発生し、モデル効率が向上する。
これを実現するために,ビデオフレームの冗長性を排除しつつ,意味的多様性の高いいくつかの代表トークンを動的に選択するトークンプルーニングクラスタ(TPC)を提案する。
さらに、選択したトークンに基づいて詳細な時空間情報を復元するトークン復元用トークン(TRA)を開発し、高速な推論のために、ネットワーク出力を元のフル長時空間分解に拡張する。
2つのベンチマークデータセット(Human3.6MとMPI-INF-3DHP)の大規模な実験により、本手法は元のVPTモデルと比較して高い効率と推定精度を達成できることを示した。
例えば、Human3.6M上でMotionBERTとMixSTEを適用すると、私たちのHoTは精度を犠牲にすることなく50%近いFLOPを節約できます。
コードとモデルはhttps://github.com/NationalGAILab/HoT.comで入手できる。
関連論文リスト
- Efficient Point Transformer with Dynamic Token Aggregating for Point Cloud Processing [19.73918716354272]
ポイントクラウド表現と処理のための動的トークン集約(DTA-Former)を用いた効率的なポイントトランスフォーマーを提案する。
ModelNet40、ShapeNet、航空機搭載MultiSpectral LiDAR(MS-LiDAR)データセット上の前点変換器よりも最大30$times$高速でSOTAパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-05-23T20:50:50Z) - Efficient Video Action Detection with Token Dropout and Context
Refinement [67.10895416008911]
効率的なビデオアクション検出(ViT)のためのエンドツーエンドフレームワークを提案する。
ビデオクリップでは、他のフレームからのアクターの動きに関連するトークンを保存しながら、その視点でトークンを維持する。
第二に、残ったトークンを利用してシーンコンテキストを洗練し、アクターのアイデンティティをよりよく認識する。
論文 参考訳(メタデータ) (2023-04-17T17:21:21Z) - Capturing the motion of every joint: 3D human pose and shape estimation
with independent tokens [34.50928515515274]
モノクロ映像から3次元人物のポーズと形状を推定する新しい手法を提案する。
提案手法は,3DPWおよびHuman3.6Mデータセット上での優れた性能を実現する。
論文 参考訳(メタデータ) (2023-03-01T07:48:01Z) - SVFormer: Semi-supervised Video Transformer for Action Recognition [88.52042032347173]
SVFormerは、未ラベルの動画サンプルに対処するために、安定した擬似ラベルフレームワークを採用する。
さらに,ビデオの複雑な時間変動をカバーするための時間ゆらぎを提案する。
特にSVFormerは、Kinetics-400の1%のラベル付け率でトレーニングエポックを減らし、最先端の技術を31.5%上回っている。
論文 参考訳(メタデータ) (2022-11-23T18:58:42Z) - Uplift and Upsample: Efficient 3D Human Pose Estimation with Uplifting
Transformers [28.586258731448687]
時間的にスパースな2Dポーズシーケンスを操作できるTransformerベースのポーズアップリフト方式を提案する。
本稿では,Transformerブロック内の時間的アップサンプリングにマスク付きトークンモデリングをどのように利用できるかを示す。
我々は,Human3.6M と MPI-INF-3DHP の2つのベンチマークデータセットを用いて評価を行った。
論文 参考訳(メタデータ) (2022-10-12T12:00:56Z) - SaiT: Sparse Vision Transformers through Adaptive Token Pruning [5.1477382898520485]
スパース適応画像変換器(SaiT)は、ハエのトークン間隔を単に変更するだけで、モデルアクセラレーションの様々なレベルを提供する。
SaiTは複雑性(FLOP)を39%から43%削減し、スループットを67%から91%向上させる。
論文 参考訳(メタデータ) (2022-10-11T23:26:42Z) - Pix4Point: Image Pretrained Standard Transformers for 3D Point Cloud
Understanding [62.502694656615496]
本稿では、プログレッシブ・ポイント・パッチ・エンベディングと、PViTと呼ばれる新しいポイント・クラウド・トランスフォーマーモデルを提案する。
PViTはTransformerと同じバックボーンを共有しているが、データに対して空腹が少ないことが示されており、Transformerは最先端技術に匹敵するパフォーマンスを実現することができる。
我々は、イメージ領域で事前訓練されたトランスフォーマーを活用して、下流のクラウド理解を強化する、シンプルで効果的なパイプライン「Pix4Point」を定式化します。
論文 参考訳(メタデータ) (2022-08-25T17:59:29Z) - Spatiotemporal Self-attention Modeling with Temporal Patch Shift for
Action Recognition [34.98846882868107]
映像に基づく行動認識のための変換器における3次元自己認識を効率的に行うための時間的パッチシフト(TPS)手法を提案する。
その結果,2次元自己注意とほぼ同じ複雑さとコストで3次元自己注意メモリを計算できることがわかった。
論文 参考訳(メタデータ) (2022-07-27T02:47:07Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。