論文の概要: TransPose: Towards Explainable Human Pose Estimation by Transformer
- arxiv url: http://arxiv.org/abs/2012.14214v2
- Date: Thu, 31 Dec 2020 07:15:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 11:02:13.488672
- Title: TransPose: Towards Explainable Human Pose Estimation by Transformer
- Title(参考訳): TransPose: Transformerによる説明可能な人文推定を目指して
- Authors: Sen Yang and Zhibin Quan and Mu Nie and Wankou Yang
- Abstract要約: 我々はTransformerアーキテクチャと低レベルの畳み込みブロックに基づくTransPoseというモデルを構築した。
画像が与えられると、transformerに組み込まれた注意層はキーポイント間の長距離空間関係を捉えることができる。
実験によると、TransPoseはキーポイントの位置を正確に予測できる。
- 参考スコア(独自算出の注目度): 17.39838556906491
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Convolutional Neural Networks (CNNs) have made remarkable progress on
human pose estimation task. However, there is no explicit understanding of how
the locations of body keypoints are predicted by CNN, and it is also unknown
what spatial dependency relationships between structural variables are learned
in the model. To explore these questions, we construct an explainable model
named TransPose based on Transformer architecture and low-level convolutional
blocks. Given an image, the attention layers built in Transformer can capture
long-range spatial relationships between keypoints and explain what
dependencies the predicted keypoints locations highly rely on. We analyze the
rationality of using attention as the explanation to reveal the spatial
dependencies in this task. The revealed dependencies are image-specific and
variable for different keypoint types, layer depths, or trained models. The
experiments show that TransPose can accurately predict the positions of
keypoints. It achieves state-of-the-art performance on COCO dataset, while
being more interpretable, lightweight, and efficient than mainstream fully
convolutional architectures.
- Abstract(参考訳): 深層畳み込みニューラルネットワーク(CNN)は人間のポーズ推定タスクに顕著な進歩をもたらした。
しかし,CNNによる身体キーポイントの位置の予測には明確な理解が得られず,構造変数間の空間的依存関係がモデルでどのように学習されるかは不明である。
そこで本研究では,Transformer アーキテクチャと低レベル畳み込みブロックに基づく TransPose というモデルを構築した。
画像が与えられたら、Transformerに組み込まれたアテンション層は、キーポイント間の長距離空間関係をキャプチャし、予測キーポイント位置が依存する依存関係を説明することができる。
注意を説明として用いる合理性を分析し,この課題の空間的依存性を明らかにする。
明らかな依存関係はイメージ固有であり、異なるキーポイントタイプ、レイヤ深さ、トレーニングされたモデルに対する変数である。
実験の結果,TransPoseはキーポイントの位置を正確に予測できることがわかった。
cocoデータセットの最先端のパフォーマンスを実現し、メインストリームの完全畳み込みアーキテクチャよりも解釈可能、軽量、効率的である。
関連論文リスト
- DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - How Deep Networks Learn Sparse and Hierarchical Data: the Sparse Random Hierarchy Model [4.215221129670858]
生成的階層的データモデルに空間性を導入することで、スムーズな変換の離散バージョンである空間変換に対する非感受性を得ることを示す。
SRHMを学習するCNNのサンプルの複雑さが、タスクのスパーシリティと階層構造の両方に依存するかを定量化する。
論文 参考訳(メタデータ) (2024-04-16T17:01:27Z) - On Characterizing the Evolution of Embedding Space of Neural Networks
using Algebraic Topology [9.537910170141467]
特徴埋め込み空間のトポロジがベッチ数を介してよく訓練されたディープニューラルネットワーク(DNN)の層を通過するとき、どのように変化するかを検討する。
深度が増加するにつれて、トポロジカルに複雑なデータセットが単純なデータセットに変換され、ベッチ数はその最小値に達することが示される。
論文 参考訳(メタデータ) (2023-11-08T10:45:12Z) - Capsules as viewpoint learners for human pose estimation [4.246061945756033]
カメラが大きな視点変化を受けると、ほとんどのニューラルネットワークがうまく一般化できないことを示す。
本稿では,高速な変分ベイズルーティングとマトリックスカプセルを用いた,エンドツーエンドのポジショニング等価なカプセルオートエンコーダを提案する。
複数のタスクやデータセットに対して、他の望ましい特性を維持しながら、最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-13T09:01:46Z) - Robust Change Detection Based on Neural Descriptor Fields [53.111397800478294]
我々は、部分的に重なり合う観測結果とノイズのある局所化結果に頑健なオブジェクトレベルのオンライン変化検出手法を開発した。
形状符号の類似性を利用して物体を連想させ, 局所的な物体近傍の空間配置を比較することにより, 観測重複や局所雑音に対する頑健性を示す。
論文 参考訳(メタデータ) (2022-08-01T17:45:36Z) - BTranspose: Bottleneck Transformers for Human Pose Estimation with
Self-Supervised Pre-Training [0.304585143845864]
本稿では,CNNとマルチヘッド自己注意層(MHSA)を効果的に組み合わせたBottleneck Transformersを提案する。
我々は,異なるバックボーンアーキテクチャを考察し,DINO自己教師型学習手法を用いて事前学習を行う。
実験により,本モデルが [1] などの他の手法と競合する 76.4 のAPを達成でき,ネットワークパラメータも少ないことがわかった。
論文 参考訳(メタデータ) (2022-04-21T15:45:05Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - Swin-Pose: Swin Transformer Based Human Pose Estimation [16.247836509380026]
畳み込みニューラルネットワーク(CNN)は多くのコンピュータビジョンタスクで広く利用されている。
CNNは、固定された受信フィールドを持ち、人間のポーズ推定に不可欠である長距離知覚能力に欠ける。
本稿では,特徴ピラミッド融合構造により拡張されたトランスフォーマーアーキテクチャに基づく新しいモデルを提案する。
論文 参考訳(メタデータ) (2022-01-19T02:15:26Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Spatio-Temporal Inception Graph Convolutional Networks for
Skeleton-Based Action Recognition [126.51241919472356]
我々はスケルトンに基づく行動認識のためのシンプルで高度にモジュール化されたグラフ畳み込みネットワークアーキテクチャを設計する。
ネットワークは,空間的および時間的経路から多粒度情報を集約するビルディングブロックを繰り返すことで構築される。
論文 参考訳(メタデータ) (2020-11-26T14:43:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。