論文の概要: Distilling Token-Pruned Pose Transformer for 2D Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2304.05548v1
- Date: Wed, 12 Apr 2023 00:46:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 16:25:30.158918
- Title: Distilling Token-Pruned Pose Transformer for 2D Human Pose Estimation
- Title(参考訳): 2次元ヒューマン・ポーズ推定のための蒸留乾式ポース変圧器
- Authors: Feixiang Ren
- Abstract要約: 近年のPPTは画像の背景トークンをプルーニングすることでこの問題を解決している。
人間のポーズ推定(DPPT)のための蒸留プルーンド・トケン変換器という新しい手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human pose estimation has seen widespread use of transformer models in recent
years. Pose transformers benefit from the self-attention map, which captures
the correlation between human joint tokens and the image. However, training
such models is computationally expensive. The recent token-Pruned Pose
Transformer (PPT) solves this problem by pruning the background tokens of the
image, which are usually less informative. However, although it improves
efficiency, PPT inevitably leads to worse performance than TokenPose due to the
pruning of tokens. To overcome this problem, we present a novel method called
Distilling Pruned-Token Transformer for human pose estimation (DPPT). Our
method leverages the output of a pre-trained TokenPose to supervise the
learning process of PPT. We also establish connections between the internal
structure of pose transformers and PPT, such as attention maps and joint
features. Our experimental results on the MPII datasets show that our DPPT can
significantly improve PCK compared to previous PPT models while still reducing
computational complexity.
- Abstract(参考訳): 近年、人間のポーズ推定にはトランスフォーマーモデルが広く使われている。
姿勢変換器は、人間の関節トークンと画像の相関をキャプチャする自己注意マップの恩恵を受ける。
しかし、そのようなモデルのトレーニングは計算コストが高い。
最近のトークン処理されたPose Transformer (PPT)は、画像の背景トークンをプルーニングすることでこの問題を解決する。
しかし、効率は向上するが、pptは必然的にトークンの刈り取りによるtokenposeよりもパフォーマンスが悪くなる。
この問題を解決するために,人間のポーズ推定(DPPT)のためのDistilling Pruned-Token Transformerを提案する。
本手法は,事前学習したTokenPoseの出力を利用して,PPTの学習プロセスを監督する。
また,ポーズ変換器の内部構造とPTT,例えばアテンションマップやジョイント特徴との接続を確立する。
MPIIデータセットによる実験結果から,DPPTは計算複雑性を低減しつつ,従来のPPTモデルと比較してPCKを大幅に改善できることが示された。
関連論文リスト
- Hourglass Tokenizer for Efficient Transformer-Based 3D Human Pose Estimation [73.31524865643709]
本稿では,Hourglass Tokenizer (HoT) と呼ばれるプラグアンドプレイのプルーニング・アンド・リカバリフレームワークを提案する。
私たちのHoDTは、冗長なフレームのポーズトークンのプルーニングから始まり、フル長のトークンを復元することで終了します。
提案手法は,従来のVPTモデルと比較して高い効率性と推定精度を両立させることができる。
論文 参考訳(メタデータ) (2023-11-20T18:59:51Z) - Improved TokenPose with Sparsity [0.0]
我々は、人間のポーズ推定を改善するために、キーポイントトークンアテンションと視覚トークンアテンションの両方に空間性を導入する。
MPIIデータセットによる実験結果から,本モデルは精度が高く,本手法の有効性が証明された。
論文 参考訳(メタデータ) (2023-11-16T08:12:34Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer
Pre-Training [59.923672191632065]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - Joint Token Pruning and Squeezing Towards More Aggressive Compression of
Vision Transformers [2.0442992958844517]
視覚変換器を高効率で圧縮するための新しいTPS(Token Pruning & Squeezing Module)を提案する。
TPSは、プルーニングされたトークンの情報を、一方向近傍のマッチングと類似性に基づく融合ステップを介して、部分的な予約トークンに絞り込む。
提案手法は,DeiT-tinyを超えるスループットを向上し,精度はDeiT-tinyより4.78%向上する。
論文 参考訳(メタデータ) (2023-04-21T02:59:30Z) - Image Deblurring by Exploring In-depth Properties of Transformer [86.7039249037193]
我々は、事前訓練された視覚変換器(ViT)から抽出した深い特徴を活用し、定量的な測定値によって測定された性能を犠牲にすることなく、回復した画像のシャープ化を促進する。
得られた画像と対象画像の変換器特徴を比較することにより、事前学習された変換器は、高解像度のぼやけた意味情報を提供する。
特徴をベクトルとみなし、抽出された画像から抽出された表現とユークリッド空間における対象表現との差を計算する。
論文 参考訳(メタデータ) (2023-03-24T14:14:25Z) - PPT: token-Pruned Pose Transformer for monocular and multi-view human
pose estimation [25.878375219234975]
本研究では,粗い人間のマスクの位置を推定し,選択したトークン内でのみ自己注意を行うことのできる2次元ポーズ推定用トークン処理ポストランス (PPT) を提案する。
我々はまた、人間の前景ピクセルを対応する候補とみなす、ヒト領域融合と呼ばれる新しいクロスビュー融合戦略を提案する。
論文 参考訳(メタデータ) (2022-09-16T23:22:47Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Learned Token Pruning for Transformers [39.181816379061374]
Learned Token Pruning ()メソッドは、データがトランスフォーマーの異なるレイヤを通過すると、冗長なトークンを減らす。
複数のGLUEタスクに対して,提案手法の性能を広範囲に検証する。
予備的な結果はTesla T4とIntel Haswellの1.4倍と1.9倍のスループット向上を示す。
論文 参考訳(メタデータ) (2021-07-02T09:00:13Z) - End-to-End Trainable Multi-Instance Pose Estimation with Transformers [68.93512627479197]
畳み込みニューラルネットワークとトランスを組み合わせることで,マルチインスタンスポーズ推定のための新たなエンドツーエンドトレーニング可能なアプローチを提案する。
変換器を用いたエンドツーエンドのトレーニング可能なオブジェクト検出に関する最近の研究に触発されて、変換器エンコーダデコーダアーキテクチャとバイパーティイトマッチングスキームを併用して、与えられた画像中のすべての個人のポーズを直接回帰する。
提案モデルであるポーズ推定トランスフォーマ(poet)は,キーポイント損失,キーポイント可視性損失,センター損失,クラス損失からなる,新たなセットベースグローバル損失を用いてトレーニングを行う。
論文 参考訳(メタデータ) (2021-03-22T18:19:22Z) - Pre-Trained Image Processing Transformer [95.93031793337613]
我々は、新しい事前学習モデル、すなわち、画像処理変換器(IPT)を開発する。
本稿では、よく知られたImageNetベンチマークを用いて、大量の画像ペアを生成する。
IPTモデルは、これらの画像をマルチヘッドとマルチテールでトレーニングする。
論文 参考訳(メタデータ) (2020-12-01T09:42:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。