論文の概要: ViTPose+: Vision Transformer Foundation Model for Generic Body Pose
Estimation
- arxiv url: http://arxiv.org/abs/2212.04246v1
- Date: Wed, 7 Dec 2022 12:33:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 15:52:05.623908
- Title: ViTPose+: Vision Transformer Foundation Model for Generic Body Pose
Estimation
- Title(参考訳): ViTPose+:ジェネリックボディポーズ推定のためのビジョントランスフォーマー基礎モデル
- Authors: Yufei Xu, Jing Zhang, Qiming Zhang, Dacheng Tao
- Abstract要約: 様々な側面から身体ポーズ推定を行うため, プレーン・ビジョン・トランスフォーマーの驚くほど優れた特性を示す。
ViTPoseは、特徴をエンコードするエンコーダと、ボディキーポイントをデコードする軽量デコーダとして、平らで非階層的な視覚変換器を使用している。
実験により,大規模なViTPoseモデルの知識は,簡単な知識トークンによって簡単に小さなものに伝達できることが実証された。
- 参考スコア(独自算出の注目度): 76.35955924137986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we show the surprisingly good properties of plain vision
transformers for body pose estimation from various aspects, namely simplicity
in model structure, scalability in model size, flexibility in training
paradigm, and transferability of knowledge between models, through a simple
baseline model dubbed ViTPose. Specifically, ViTPose employs the plain and
non-hierarchical vision transformer as an encoder to encode features and a
lightweight decoder to decode body keypoints in either a top-down or a
bottom-up manner. It can be scaled up from about 20M to 1B parameters by taking
advantage of the scalable model capacity and high parallelism of the vision
transformer, setting a new Pareto front for throughput and performance.
Besides, ViTPose is very flexible regarding the attention type, input
resolution, and pre-training and fine-tuning strategy. Based on the
flexibility, a novel ViTPose+ model is proposed to deal with heterogeneous body
keypoint categories in different types of body pose estimation tasks via
knowledge factorization, i.e., adopting task-agnostic and task-specific
feed-forward networks in the transformer. We also empirically demonstrate that
the knowledge of large ViTPose models can be easily transferred to small ones
via a simple knowledge token. Experimental results show that our ViTPose model
outperforms representative methods on the challenging MS COCO Human Keypoint
Detection benchmark at both top-down and bottom-up settings. Furthermore, our
ViTPose+ model achieves state-of-the-art performance simultaneously on a series
of body pose estimation tasks, including MS COCO, AI Challenger, OCHuman, MPII
for human keypoint detection, COCO-Wholebody for whole-body keypoint detection,
as well as AP-10K and APT-36K for animal keypoint detection, without
sacrificing inference speed.
- Abstract(参考訳): 本稿では,モデル構造の単純さ,モデルサイズにおける拡張性,トレーニングパラダイムの柔軟性,モデル間の知識の伝達性など,様々な側面から身体ポーズ推定のためのプレーンビジョントランスフォーマの驚くほど優れた特性を,vitposeと呼ばれる単純なベースラインモデルを用いて示す。
具体的には、VTPoseは、特徴をエンコードするエンコーダと、ボディーキーポイントをトップダウンまたはボトムアップの方法でデコードする軽量デコーダとして、平らで非階層的な視覚変換器を使用している。
スケーラブルなモデルキャパシティとvision transformerの高並列性を利用して、スループットとパフォーマンスのために新しいparetoフロントを設定することで、約20mから1bのパラメータにスケールアップできる。
さらに、ViTPoseは注意タイプ、入力解像度、事前学習および微調整戦略に関して非常に柔軟である。
この柔軟性に基づき,多種多様なボディポーズ推定タスク,すなわち,タスク非依存およびタスク特化フィードフォワードネットワークをトランスフォーマーに導入することにより,不均一なボディキーポイントカテゴリを扱う新しいViTPose+モデルを提案する。
また,大規模なViTPoseモデルの知識を,簡単な知識トークンで簡単に小さなものに伝達できることを実証的に実証した。
実験結果から, トップダウンおよびボトムアップの両設定において, 課題であるMS COCO Human Keypoint Detectionベンチマークにおいて, 提案するViTPoseモデルよりも優れていた。
さらに,人間のキーポイント検出のためのMS COCO, AI Challenger, OCHuman, MPII, 全身キーポイント検出のためのCOCO-Wholebody, 動物のキーポイント検出のためのAP-10K, APT-36Kなど,一連のボディポーズ推定タスクを同時に行う。
関連論文リスト
- Applying ViT in Generalized Few-shot Semantic Segmentation [0.0]
本稿では,汎用的な小ショットセマンティックセマンティックセグメンテーション(GFSS)フレームワーク下でのViTモデルの性能について検討する。
ResNetsやViT(Pretrained Vision Transformer)ベースのモデルなど,バックボーンモデルのさまざまな組み合わせによる実験を行った。
GFSSタスク上での大規模な事前学習型ViTモデルの可能性を示すとともに,テストベンチマークのさらなる改善を期待する。
論文 参考訳(メタデータ) (2024-08-27T11:04:53Z) - Group Multi-View Transformer for 3D Shape Analysis with Spatial Encoding [81.1943823985213]
近年,ビューベース3次元形状認識手法の結果は飽和しており,メモリ制限デバイスに優れた性能を持つモデルは展開できない。
本稿では,本分野の知識蒸留に基づく圧縮手法を提案し,モデル性能を極力保ちながらパラメータ数を大幅に削減する。
具体的には、小型モデルの能力を高めるため、GMViT(Group Multi-view Vision Transformer)と呼ばれる高性能な大型モデルを設計する。
GMViTは、ベンチマークデータセットであるModelNet、ShapeNetCore55、MCBにおいて、優れた3D分類と検索結果を得る。
論文 参考訳(メタデータ) (2023-12-27T08:52:41Z) - HEViTPose: High-Efficiency Vision Transformer for Human Pose Estimation [3.1690891866882236]
本稿では,Human Pose Estimation (HEViTPose)のための高効率視覚変換器を提案する。
HEViTPoseでは,CGSR-MHA (Cascaded Group Spatial Reduction Multi-Head Attention Module) が提案され,計算コストが削減された。
2つのベンチマークデータセット(MPIIとCOCO)の総合的な実験は、HEViTPoseモデルが最先端モデルと同等であることを示している。
論文 参考訳(メタデータ) (2023-11-22T06:45:16Z) - A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。
我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。
FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文 参考訳(メタデータ) (2022-12-23T19:13:43Z) - PSAQ-ViT V2: Towards Accurate and General Data-Free Quantization for
Vision Transformers [2.954890575035673]
データフリーな量子化は、モデル圧縮におけるデータのプライバシとセキュリティ上の懸念に対処する可能性がある。
最近、PSAQ-ViTは、事前訓練された視覚変換器(ViT)からデータを生成するために、相対値、パッチ類似度を設計している。
本稿では,より正確で汎用的なデータフリー量子化フレームワークであるPSAQ-ViT V2を提案する。
論文 参考訳(メタデータ) (2022-09-13T01:55:53Z) - ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation [76.35955924137986]
人間のポーズ推定データセットを微調整した結果,MAEプリトレーニング付きプレーン・ビジョン・トランスフォーマが優れた性能が得られることを示す。
10億のパラメータを持つ ViTAE-G バックボーンをベースとした我々の最大の ViTPose モデルは MS COCO test-dev セット上で最高の 80.9 mAP を得る。
論文 参考訳(メタデータ) (2022-04-26T17:55:04Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。