論文の概要: HEViTPose: High-Efficiency Vision Transformer for Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2311.13615v1
- Date: Wed, 22 Nov 2023 06:45:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 01:47:25.940788
- Title: HEViTPose: High-Efficiency Vision Transformer for Human Pose Estimation
- Title(参考訳): HEViTPose:人間の視点推定のための高効率ビジョントランス
- Authors: Chengpeng Wu, Guangxing Tan, Chunyu Li
- Abstract要約: 本稿では,Human Pose Estimation (HEViTPose)のための高効率視覚変換器を提案する。
HEViTPoseでは,CGSR-MHA (Cascaded Group Spatial Reduction Multi-Head Attention Module) が提案され,計算コストが削減された。
2つのベンチマークデータセット(MPIIとCOCO)の総合的な実験は、HEViTPoseモデルが最先端モデルと同等であることを示している。
- 参考スコア(独自算出の注目度): 3.1690891866882236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human pose estimation in complicated situations has always been a challenging
task. Many Transformer-based pose networks have been proposed recently,
achieving encouraging progress in improving performance. However, the
remarkable performance of pose networks is always accompanied by heavy
computation costs and large network scale. In order to deal with this problem,
this paper proposes a High-Efficiency Vision Transformer for Human Pose
Estimation (HEViTPose). In HEViTPose, a Cascaded Group Spatial Reduction
Multi-Head Attention Module (CGSR-MHA) is proposed, which reduces the
computational cost through feature grouping and spatial degradation mechanisms,
while preserving feature diversity through multiple low-dimensional attention
heads. Moreover, a concept of Patch Embedded Overlap Width (PEOW) is defined to
help understand the relationship between the amount of overlap and local
continuity. By optimising PEOW, our model gains improvements in performance,
parameters and GFLOPs.
Comprehensive experiments on two benchmark datasets (MPII and COCO)
demonstrate that the small and large HEViTPose models are on par with
state-of-the-art models while being more lightweight. Specifically, HEViTPose-B
achieves 90.7 PCK@0.5 on the MPII test set and 72.6 AP on the COCO test-dev2017
set. Compared with HRNet-W32 and Swin-S, our HEViTPose-B significantly reducing
Params ($\downarrow$62.1%,$\downarrow$80.4%,) and GFLOPs
($\downarrow$43.4%,$\downarrow$63.8%,). Code and models are available at
\url{here}.
- Abstract(参考訳): 複雑な状況下での人間のポーズ推定は常に困難な作業だった。
近年、多くのトランスフォーマーベースのポーズネットワークが提案されており、パフォーマンス向上の促進が図られている。
しかし,ポースネットワークの顕著な性能には,計算コストの増大と大規模ネットワーク規模が伴う。
この問題に対処するために,Human Pose Estimation (HEViTPose) のための高効率ビジョン変換器を提案する。
HEViTPoseでは,複数の低次元アテンションヘッドを通して特徴量の多様性を保ちながら,特徴グループ化や空間劣化機構を通じて計算コストを削減できるCGSR-MHAが提案されている。
さらに, Patch Embedded Overlap Width (PEOW) の概念は, 重複量と局所連続性との関係を理解するのに役立つ。
PEOWを最適化することで、我々のモデルは性能、パラメータ、GFLOPが改善される。
2つのベンチマークデータセット(MPIIとCOCO)の総合的な実験により、HEViTPoseモデルはより軽量でありながら最先端モデルと同等であることが示された。
具体的には、HEViTPose-BはMPIIテストセットで90.7 PCK@0.5、COCOテストデーブ2017セットで72.6 APを達成する。
HRNet-W32やSwin-Sと比較して、HEViTPose-Bはパラム($62.1%、$80.4%)とGFLOPs($43.4%、$63.8%)を著しく削減しています。
コードとモデルは \url{here} で利用可能である。
関連論文リスト
- HIRI-ViT: Scaling Vision Transformer with High Resolution Inputs [102.4965532024391]
Vision Transformer(ViT)とConvolution Neural Network(CNN)のハイブリッドディープモデルは、ビジョンタスクのための強力なバックボーンのクラスとして登場した。
高分解能入力に適した4段のViTから5段のViTにアップグレードしたHIgh-Resolution Inputs(HIRI-ViT)のハイブリッドバックボーンを提案する。
HiRI-ViTは448$times$448の入力でImageNetで84.3%の最高のTop-1精度を達成し、iFormer-Sの83.4%を224$timesで0.9%改善した。
論文 参考訳(メタデータ) (2024-03-18T17:34:29Z) - GOHSP: A Unified Framework of Graph and Optimization-based Heterogeneous
Structured Pruning for Vision Transformer [76.2625311630021]
視覚変換器(ViT)は、様々なコンピュータビジョンタスクにおいて非常に印象的な経験的性能を示している。
この問題を緩和するために、構造化プルーニングはモデルサイズを圧縮し、実用的な効率を実現するための有望な解決策である。
グラフと最適化に基づく構造的プルーニング(Structured Pruning)を統合化したフレームワークであるGOHSPを提案する。
論文 参考訳(メタデータ) (2023-01-13T00:40:24Z) - ViTPose++: Vision Transformer for Generic Body Pose Estimation [70.86760562151163]
様々な側面から身体ポーズ推定を行うため, プレーン・ビジョン・トランスフォーマーの驚くほど優れた特性を示す。
ViTPoseは、特徴をエンコードするエンコーダと、ボディキーポイントをデコードする軽量デコーダとして、平らで非階層的な視覚変換器を使用している。
実験により,大規模なViTPoseモデルの知識は,簡単な知識トークンによって簡単に小さなものに伝達できることが実証された。
論文 参考訳(メタデータ) (2022-12-07T12:33:28Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - PSAQ-ViT V2: Towards Accurate and General Data-Free Quantization for
Vision Transformers [2.954890575035673]
データフリーな量子化は、モデル圧縮におけるデータのプライバシとセキュリティ上の懸念に対処する可能性がある。
最近、PSAQ-ViTは、事前訓練された視覚変換器(ViT)からデータを生成するために、相対値、パッチ類似度を設計している。
本稿では,より正確で汎用的なデータフリー量子化フレームワークであるPSAQ-ViT V2を提案する。
論文 参考訳(メタデータ) (2022-09-13T01:55:53Z) - Parameterization of Cross-Token Relations with Relative Positional
Encoding for Vision MLP [52.25478388220691]
視覚多層パーセプトロン(MLP)はコンピュータビジョンタスクにおいて有望な性能を示す。
トークンミキシングレイヤを使用して、トランスフォーマーが使用するマルチヘッド自己保持機構とは対照的に、クロストークンインタラクションをキャプチャする。
トークン混合のためのクロストークン関係を効率的に符号化する新しい位置空間ゲーティングユニット(PoSGU)を提案する。
論文 参考訳(メタデータ) (2022-07-15T04:18:06Z) - ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation [76.35955924137986]
人間のポーズ推定データセットを微調整した結果,MAEプリトレーニング付きプレーン・ビジョン・トランスフォーマが優れた性能が得られることを示す。
10億のパラメータを持つ ViTAE-G バックボーンをベースとした我々の最大の ViTPose モデルは MS COCO test-dev セット上で最高の 80.9 mAP を得る。
論文 参考訳(メタデータ) (2022-04-26T17:55:04Z) - Towards Simple and Accurate Human Pose Estimation with Stair Network [34.421529219040295]
精度の高い多段階ポーズ推定システムに積み重ねることができるStair Networkと呼ばれる小さな判別モデルを開発した。
計算コストを削減するため、Stair Networkは、新しい基本的な特徴抽出ブロックで構成されている。
2つの標準データセットに対するStair Networkの有効性を示す。
論文 参考訳(メタデータ) (2022-02-18T10:37:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。