論文の概要: Swin-Pose: Swin Transformer Based Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2201.07384v1
- Date: Wed, 19 Jan 2022 02:15:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-20 14:49:27.284280
- Title: Swin-Pose: Swin Transformer Based Human Pose Estimation
- Title(参考訳): Swin-Pose:スイム・トランスフォーマーによる人文推定
- Authors: Zinan Xiong, Chenxi Wang, Ying Li, Yan Luo, Yu Cao
- Abstract要約: 畳み込みニューラルネットワーク(CNN)は多くのコンピュータビジョンタスクで広く利用されている。
CNNは、固定された受信フィールドを持ち、人間のポーズ推定に不可欠である長距離知覚能力に欠ける。
本稿では,特徴ピラミッド融合構造により拡張されたトランスフォーマーアーキテクチャに基づく新しいモデルを提案する。
- 参考スコア(独自算出の注目度): 16.247836509380026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional neural networks (CNNs) have been widely utilized in many
computer vision tasks. However, CNNs have a fixed reception field and lack the
ability of long-range perception, which is crucial to human pose estimation.
Due to its capability to capture long-range dependencies between pixels,
transformer architecture has been adopted to computer vision applications
recently and is proven to be a highly effective architecture. We are interested
in exploring its capability in human pose estimation, and thus propose a novel
model based on transformer architecture, enhanced with a feature pyramid fusion
structure. More specifically, we use pre-trained Swin Transformer as our
backbone and extract features from input images, we leverage a feature pyramid
structure to extract feature maps from different stages. By fusing the features
together, our model predicts the keypoint heatmap. The experiment results of
our study have demonstrated that the proposed transformer-based model can
achieve better performance compared to the state-of-the-art CNN-based models.
- Abstract(参考訳): 畳み込みニューラルネットワーク(cnns)は多くのコンピュータビジョンタスクで広く使われている。
しかし、CNNは一定の受信場を持ち、人間のポーズ推定に不可欠である長距離知覚能力に欠ける。
画素間の長距離依存関係をキャプチャできるため、最近のコンピュータビジョンアプリケーションではトランスフォーマーアーキテクチャが採用されており、非常に効果的なアーキテクチャであることが証明されている。
我々は,人間のポーズ推定におけるその能力を探ることに興味を持ち,特徴ピラミッド融合構造により拡張されたトランスフォーマーアーキテクチャに基づく新しいモデルを提案する。
具体的には、トレーニング済みのSwin Transformerをバックボーンとして使用し、入力画像から特徴を抽出し、特徴ピラミッド構造を利用して異なるステージから特徴マップを抽出する。
機能を融合することで,キーポイントヒートマップを予測できる。
本研究では,提案するトランスフォーマーモデルが最先端cnnモデルよりも優れた性能を実現することを実証した。
関連論文リスト
- TransDeepLab: Convolution-Free Transformer-based DeepLab v3+ for Medical
Image Segmentation [11.190117191084175]
本稿では,DeepLabライクな医用画像セグメンテーション用トランスフォーマであるTransDeepLabを提案する。
我々は、DeepLabv3を拡張し、ASPPモジュールをモデル化するために、シフトウィンドウを持つ階層型Swin-Transformerを利用する。
提案手法は,視覚変換器とCNNに基づく手法のアマルガメーションにおいて,現代のほとんどの作品に匹敵する,あるいは同等に動作する。
論文 参考訳(メタデータ) (2022-08-01T09:53:53Z) - BTranspose: Bottleneck Transformers for Human Pose Estimation with
Self-Supervised Pre-Training [0.304585143845864]
本稿では,CNNとマルチヘッド自己注意層(MHSA)を効果的に組み合わせたBottleneck Transformersを提案する。
我々は,異なるバックボーンアーキテクチャを考察し,DINO自己教師型学習手法を用いて事前学習を行う。
実験により,本モデルが [1] などの他の手法と競合する 76.4 のAPを達成でき,ネットワークパラメータも少ないことがわかった。
論文 参考訳(メタデータ) (2022-04-21T15:45:05Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - FoveaTer: Foveated Transformer for Image Classification [8.207403859762044]
本研究では,プール領域とサスカディック動作を用いてオブジェクト分類タスクを行うFoveaTerモデルを提案する。
本研究では,提案モデルと未発見モデルを用いてアンサンブルモデルを構築し,未発見モデルよりも精度1.36%の精度で計算コストを22%削減した。
論文 参考訳(メタデータ) (2021-05-29T01:54:33Z) - Rethinking Spatial Dimensions of Vision Transformers [34.13899937264952]
Vision Transformer (ViT) は、言語処理からコンピュータビジョンタスクまで、トランスフォーマーの応用範囲を広げる。
トランスアーキテクチャにおける空間次元変換の役割とその有効性について検討する。
オリジナルViTモデルに基づく新しいPooling-based Vision Transformer (PiT)を提案する。
論文 参考訳(メタデータ) (2021-03-30T12:51:28Z) - Vision Transformers for Dense Prediction [77.34726150561087]
高密度予測タスクのバックボーンとして、畳み込みネットワークの代わりにビジョントランスを活用するアーキテクチャである高密度ビジョントランスを紹介します。
実験により,このアーキテクチャは高密度予測タスクにおいて大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-03-24T18:01:17Z) - End-to-End Trainable Multi-Instance Pose Estimation with Transformers [68.93512627479197]
畳み込みニューラルネットワークとトランスを組み合わせることで,マルチインスタンスポーズ推定のための新たなエンドツーエンドトレーニング可能なアプローチを提案する。
変換器を用いたエンドツーエンドのトレーニング可能なオブジェクト検出に関する最近の研究に触発されて、変換器エンコーダデコーダアーキテクチャとバイパーティイトマッチングスキームを併用して、与えられた画像中のすべての個人のポーズを直接回帰する。
提案モデルであるポーズ推定トランスフォーマ(poet)は,キーポイント損失,キーポイント可視性損失,センター損失,クラス損失からなる,新たなセットベースグローバル損失を用いてトレーニングを行う。
論文 参考訳(メタデータ) (2021-03-22T18:19:22Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - 3D Human Pose Estimation with Spatial and Temporal Transformers [59.433208652418976]
PoseFormerは、3D人間のポーズ推定のための純粋にトランスフォーマーベースのアプローチです。
近年の視覚変換器の発展に触発されて,空間時間変換器構造を設計する。
提案手法を2つの人気ベンチマークと標準ベンチマークで定量的に定性的に評価する。
論文 参考訳(メタデータ) (2021-03-18T18:14:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。