論文の概要: GTPT: Group-based Token Pruning Transformer for Efficient Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2407.10756v2
- Date: Tue, 16 Jul 2024 14:32:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 13:14:33.723442
- Title: GTPT: Group-based Token Pruning Transformer for Efficient Human Pose Estimation
- Title(参考訳): GTPT:効率的な人文推定のためのグループ型トーケンプルーニング変換器
- Authors: Haonan Wang, Jie Liu, Jie Tang, Gangshan Wu, Bo Xu, Yanbing Chou, Yong Wang,
- Abstract要約: 効率的なポーズ推定のためのグループベースToken Pruning Transformer (GTPT)
効率的なポーズ推定のためのグループベースToken Pruning Transformer (GTPT)
- 参考スコア(独自算出の注目度): 46.74217876359835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, 2D human pose estimation has made significant progress on public benchmarks. However, many of these approaches face challenges of less applicability in the industrial community due to the large number of parametric quantities and computational overhead. Efficient human pose estimation remains a hurdle, especially for whole-body pose estimation with numerous keypoints. While most current methods for efficient human pose estimation primarily rely on CNNs, we propose the Group-based Token Pruning Transformer (GTPT) that fully harnesses the advantages of the Transformer. GTPT alleviates the computational burden by gradually introducing keypoints in a coarse-to-fine manner. It minimizes the computation overhead while ensuring high performance. Besides, GTPT groups keypoint tokens and prunes visual tokens to improve model performance while reducing redundancy. We propose the Multi-Head Group Attention (MHGA) between different groups to achieve global interaction with little computational overhead. We conducted experiments on COCO and COCO-WholeBody. Compared to other methods, the experimental results show that GTPT can achieve higher performance with less computation, especially in whole-body with numerous keypoints.
- Abstract(参考訳): 近年、人間の2次元ポーズ推定は、公開ベンチマークにおいて大きな進歩を遂げている。
しかし、これらのアプローチの多くは、パラメトリック量と計算オーバーヘッドの多さにより、産業社会における適用可能性の低下という課題に直面している。
効率的な人間のポーズ推定は依然としてハードルであり、特に多くのキーポイントを持つ全身のポーズ推定ではハードルとなる。
人間のポーズを効率よく推定する現在の手法は主にCNNに依存しているのに対し、我々はトランスの利点をフル活用するグループベースのToken Pruning Transformer (GTPT)を提案する。
GTPTは、キーポイントを粗い方法で徐々に導入することにより、計算負担を軽減する。
高い性能を確保しながら、計算オーバーヘッドを最小限に抑える。
さらに、GTPTはキーポイントトークンとプーンをグループ化し、冗長性を低減しつつモデルパフォーマンスを改善する。
計算オーバーヘッドの少ないグローバルインタラクションを実現するために,異なるグループ間でのMHGA(Multi-Head Group Attention)を提案する。
我々はCOCOとCOCO-WholeBodyの実験を行った。
他の手法と比較して、実験結果から、GTPTはより少ない計算で、特に多数のキーポイントを持つ全身で高い性能を達成できることが示された。
関連論文リスト
- TrackFormers: In Search of Transformer-Based Particle Tracking for the High-Luminosity LHC Era [2.9052912091435923]
高エネルギー物理実験は、新しいイテレーション毎に複数倍のデータの増加に直面している。
このようなオーバーホールが必要なステップの1つは、粒子トラックの再構築、すなわち追跡のタスクである。
機械学習支援ソリューションは、大幅な改善が期待されている。
論文 参考訳(メタデータ) (2024-07-09T18:47:25Z) - A Manifold Representation of the Key in Vision Transformers [8.938418994111716]
本稿では、キーをクエリと値から切り離し、キーの多様体表現を採用するという概念について検討する。
実験の結果,鍵を多様体構造で切り離して付与することで,モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-02-01T12:01:43Z) - MDPose: Real-Time Multi-Person Pose Estimation via Mixture Density Model [27.849059115252008]
本稿では,人間のキーポイントの結合分布をモデル化し,一段階のインスタンス認識ポーズ推定手法を提案する。
我々のMDPoseは、人間のキーポイントの高次元の関節分布を学習し、最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-02-17T08:29:33Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - On the Eigenvalues of Global Covariance Pooling for Fine-grained Visual
Recognition [65.67315418971688]
グローバル共分散プーリング(GCP)の小さな固有値をトラッピングすることで、よりスムーズな勾配が得られることを示す。
きめ細かいデータセットでは、小さな固有値の切り抜きは、モデルを収束させるのに失敗する。
この観測から着想を得て,小さな固有値の重要性を拡大するネットワーク分岐を提案する。
論文 参考訳(メタデータ) (2022-05-26T11:41:36Z) - Greedy Offset-Guided Keypoint Grouping for Human Pose Estimation [31.468003041368814]
私たちは、異なる人物からすべてのキーポイントを無差別に推測するために、Hourglass Networkを使用します。
我々は、予測された誘導オフセットを利用して、候補のキーポイントを複数の人間のポーズにグループ化します。
当社のアプローチは、公正な条件下でのCOCOデータセットの課題に関する最先端技術に匹敵するものです。
論文 参考訳(メタデータ) (2021-07-07T09:32:01Z) - Empirical Evaluation of Pre-trained Transformers for Human-Level NLP:
The Role of Sample Size and Dimensionality [6.540382797747107]
RoBERTaは一貫して人間レベルのタスクで最高のパフォーマンスを達成し、PCAはより長いテキストを書くユーザーをよりよく処理する他の削減方法よりも利益をもたらします。
タスクの大部分は、埋め込み寸法の$frac112$で最高のパフォーマンスに匹敵する結果を達成します。
論文 参考訳(メタデータ) (2021-05-07T20:06:24Z) - Differentiable Multi-Granularity Human Representation Learning for
Instance-Aware Human Semantic Parsing [131.97475877877608]
カテゴリーレベルの人間のセマンティックセグメンテーションとマルチパーソンポーズ推定を共同およびエンドツーエンドで学習するために,新たなボトムアップ方式を提案する。
さまざまな人間の粒度にわたって構造情報を利用する、コンパクトで効率的で強力なフレームワークです。
3つのインスタンス認識型ヒューマンデータセットの実験は、我々のモデルがより効率的な推論で他のボトムアップの代替案よりも優れていることを示している。
論文 参考訳(メタデータ) (2021-03-08T06:55:00Z) - Differentiable Hierarchical Graph Grouping for Multi-Person Pose
Estimation [95.72606536493548]
複数の人の身体のキーポイントを同時にローカライズするため、複数の人物のポーズ推定は困難である。
ボトムアップ型多人数ポーズ推定タスクにおけるグラフグループ化を学習するための,新しい微分可能な階層グラフグループ化(HGG)手法を提案する。
論文 参考訳(メタデータ) (2020-07-23T08:46:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。