論文の概要: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2204.12484v1
- Date: Tue, 26 Apr 2022 17:55:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-27 13:54:59.608156
- Title: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
- Title(参考訳): vitpose:人間のポーズ推定のための簡易視覚トランスフォーマー
- Authors: Yufei Xu, Jing Zhang, Qiming Zhang, Dacheng Tao
- Abstract要約: 人間のポーズ推定データセットを微調整した結果,MAEプリトレーニング付きプレーン・ビジョン・トランスフォーマが優れた性能が得られることを示す。
10億のパラメータを持つ ViTAE-G バックボーンをベースとした我々の最大の ViTPose モデルは MS COCO test-dev セット上で最高の 80.9 mAP を得る。
- 参考スコア(独自算出の注目度): 76.35955924137986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, customized vision transformers have been adapted for human pose
estimation and have achieved superior performance with elaborate structures.
However, it is still unclear whether plain vision transformers can facilitate
pose estimation. In this paper, we take the first step toward answering the
question by employing a plain and non-hierarchical vision transformer together
with simple deconvolution decoders termed ViTPose for human pose estimation. We
demonstrate that a plain vision transformer with MAE pretraining can obtain
superior performance after finetuning on human pose estimation datasets.
ViTPose has good scalability with respect to model size and flexibility
regarding input resolution and token number. Moreover, it can be easily
pretrained using the unlabeled pose data without the need for large-scale
upstream ImageNet data. Our biggest ViTPose model based on the ViTAE-G backbone
with 1 billion parameters obtains the best 80.9 mAP on the MS COCO test-dev
set, while the ensemble models further set a new state-of-the-art for human
pose estimation, i.e., 81.1 mAP. The source code and models will be released at
https://github.com/ViTAE-Transformer/ViTPose.
- Abstract(参考訳): 近年、人間のポーズ推定にカスタマイズされた視覚変換器が採用され、精巧な構造で優れた性能を実現している。
しかし、プレーンビジョントランスフォーマーがポーズ推定を容易にするかどうかはまだ不明である。
本稿では,人間のポーズ推定のために,VTPoseと呼ばれる単純なデコンボリューションデコーダとともに,平面的かつ非階層的な視覚変換器を用いて質問に答える第一歩を踏み出す。
人間のポーズ推定データセットを微調整した結果,MAEプリトレーニング付きプレーンビジョントランスフォーマが優れた性能が得られることを示す。
ViTPoseは、入力解像度とトークン番号に関するモデルサイズと柔軟性に関して優れたスケーラビリティを持っています。
さらに、大規模なアップストリームイメージネットデータを必要とせずに、ラベルのないポーズデータを使って簡単に事前学習することができる。
10億のパラメータを持つViTAE-Gのバックボーンに基づく我々の最大のViTPoseモデルは、MS COCOテストデブセット上で最高の80.9 mAPを得る一方、アンサンブルモデルは、人間のポーズ推定のための新しい最先端、すなわち81.1 mAPを更に設定する。
ソースコードとモデルはhttps://github.com/ViTAE-Transformer/ViTPoseでリリースされる。
関連論文リスト
- HSViT: Horizontally Scalable Vision Transformer [16.46308352393693]
Vision Transformer (ViT) は大規模データセットの事前トレーニングが必要であり、パフォーマンスが向上する。
本稿では,新しい水平方向拡張型ビジョントランス (HSViT) 方式を提案する。
HSViTは、小さなデータセットの最先端スキームよりも最大10%高いトップ1精度を達成する。
論文 参考訳(メタデータ) (2024-04-08T04:53:29Z) - MiDaS v3.1 -- A Model Zoo for Robust Monocular Relative Depth Estimation [4.563488428831042]
モノクロ深度推定のためのMiDaS v3.1をリリースし、異なるエンコーダのバックボーンに基づく様々な新しいモデルを提供する。
画像エンコーダとして最も有望なビジョントランスフォーマーが,MiDaSアーキテクチャの深度推定品質とランタイムに与える影響について検討する。
論文 参考訳(メタデータ) (2023-07-26T19:01:49Z) - ViTPose++: Vision Transformer for Generic Body Pose Estimation [70.86760562151163]
様々な側面から身体ポーズ推定を行うため, プレーン・ビジョン・トランスフォーマーの驚くほど優れた特性を示す。
ViTPoseは、特徴をエンコードするエンコーダと、ボディキーポイントをデコードする軽量デコーダとして、平らで非階層的な視覚変換器を使用している。
実験により,大規模なViTPoseモデルの知識は,簡単な知識トークンによって簡単に小さなものに伝達できることが実証された。
論文 参考訳(メタデータ) (2022-12-07T12:33:28Z) - Vision Transformer Adapter for Dense Predictions [57.590511173416445]
Vision Transformer (ViT) は画像の事前情報がないため、高密度な予測タスクでは性能が劣る。
本稿では、ViTの欠陥を修復し、視覚特化モデルに匹敵する性能を実現するビジョントランスフォーマーアダプタ(ViT-Adapter)を提案する。
我々は、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションを含む複数の下流タスクにおけるViT-Adapterの有効性を検証する。
論文 参考訳(メタデータ) (2022-05-17T17:59:11Z) - Scaling Vision Transformers [82.08465256393514]
本研究では,Vision Transformerがエラー率,データ,計算の関係をスケールし,特徴付ける方法について検討する。
我々は20億のパラメータを持つViTモデルをトレーニングし、ImageNetの90.45%のトップ-1の精度で新たな最先端技術を実現する。
このモデルは、例えば、ImageNetで84.86%のトップ-1の精度を達成し、1クラスにつき10のサンプルしか持たないような、数ショット学習でもうまく機能する。
論文 参考訳(メタデータ) (2021-06-08T17:47:39Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - End-to-End Trainable Multi-Instance Pose Estimation with Transformers [68.93512627479197]
畳み込みニューラルネットワークとトランスを組み合わせることで,マルチインスタンスポーズ推定のための新たなエンドツーエンドトレーニング可能なアプローチを提案する。
変換器を用いたエンドツーエンドのトレーニング可能なオブジェクト検出に関する最近の研究に触発されて、変換器エンコーダデコーダアーキテクチャとバイパーティイトマッチングスキームを併用して、与えられた画像中のすべての個人のポーズを直接回帰する。
提案モデルであるポーズ推定トランスフォーマ(poet)は,キーポイント損失,キーポイント可視性損失,センター損失,クラス損失からなる,新たなセットベースグローバル損失を用いてトレーニングを行う。
論文 参考訳(メタデータ) (2021-03-22T18:19:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。