論文の概要: BTranspose: Bottleneck Transformers for Human Pose Estimation with
Self-Supervised Pre-Training
- arxiv url: http://arxiv.org/abs/2204.10209v1
- Date: Thu, 21 Apr 2022 15:45:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-22 13:01:14.737294
- Title: BTranspose: Bottleneck Transformers for Human Pose Estimation with
Self-Supervised Pre-Training
- Title(参考訳): btranspose:自己教師付き事前訓練によるポーズ推定のためのボトルネックトランスフォーマー
- Authors: Kaushik Balakrishnan, Devesh Upadhyay
- Abstract要約: 本稿では,CNNとマルチヘッド自己注意層(MHSA)を効果的に組み合わせたBottleneck Transformersを提案する。
我々は,異なるバックボーンアーキテクチャを考察し,DINO自己教師型学習手法を用いて事前学習を行う。
実験により,本モデルが [1] などの他の手法と競合する 76.4 のAPを達成でき,ネットワークパラメータも少ないことがわかった。
- 参考スコア(独自算出の注目度): 0.304585143845864
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The task of 2D human pose estimation is challenging as the number of
keypoints is typically large (~ 17) and this necessitates the use of robust
neural network architectures and training pipelines that can capture the
relevant features from the input image. These features are then aggregated to
make accurate heatmap predictions from which the final keypoints of human body
parts can be inferred. Many papers in literature use CNN-based architectures
for the backbone, and/or combine it with a transformer, after which the
features are aggregated to make the final keypoint predictions [1]. In this
paper, we consider the recently proposed Bottleneck Transformers [2], which
combine CNN and multi-head self attention (MHSA) layers effectively, and we
integrate it with a Transformer encoder and apply it to the task of 2D human
pose estimation. We consider different backbone architectures and pre-train
them using the DINO self-supervised learning method [3], this pre-training is
found to improve the overall prediction accuracy. We call our model BTranspose,
and experiments show that on the COCO validation set, our model achieves an AP
of 76.4, which is competitive with other methods such as [1] and has fewer
network parameters. Furthermore, we also present the dependencies of the final
predicted keypoints on both the MHSA block and the Transformer encoder layers,
providing clues on the image sub-regions the network attends to at the mid and
high levels.
- Abstract(参考訳): 2次元人間のポーズ推定のタスクは、キーポイントの数が典型的には大きい(約17)ため、入力画像から関連する特徴をキャプチャできる堅牢なニューラルネットワークアーキテクチャとトレーニングパイプラインを使用する必要があるため、難しい。
これらの特徴を集約して正確なヒートマップの予測を行い、人体の一部の最終キーポイントを推測する。
文献上の多くの論文では、バックボーンにcnnベースのアーキテクチャを使用し、そして/またはそれをトランスフォーマーと組み合わせることで、特徴を集約して最終的なキーポイント予測を[1]にする。
本稿では,cnnとマルチヘッド自己注意(mhsa)層を効果的に結合した,最近提案されているボトルネックトランスフォーマ[2]をトランスフォーマエンコーダに統合し,2次元ポーズ推定のタスクに適用する。
DINO自己教師型学習法[3]を用いて,異なるバックボーンアーキテクチャを事前学習し,この事前学習により全体の予測精度が向上することが確認された。
我々はモデルBTransposeと呼び、COCO検証セットでは実験によって76.4のAPが達成され、[1]などの他の手法と競合し、ネットワークパラメータがより少ないことを示す。
さらに、MHSAブロックとTransformerエンコーダ層の両方で予測される最後のキーポイントの依存関係を提示し、ネットワークが中・高レベルの画像サブリージョンについて手がかりを提供する。
関連論文リスト
- Causal Transformer for Fusion and Pose Estimation in Deep Visual Inertial Odometry [1.2289361708127877]
深部視覚-慣性眼振におけるポーズ推定のための因果的視覚-慣性融合変換器 (VIFT) を提案する。
提案手法はエンドツーエンドのトレーニングが可能であり,単眼カメラとIMUのみを必要とする。
論文 参考訳(メタデータ) (2024-09-13T12:21:25Z) - Scalable Property Valuation Models via Graph-based Deep Learning [5.172964916120902]
類似した特徴を持つ近隣住宅の配列を効果的に同定する2つの新しいグラフニューラルネットワークモデルを開発した。
本研究では, グラフニューラルネットワークを用いて住宅価格予測を行うことにより, 住宅価格予測の精度を著しく向上することを示す。
論文 参考訳(メタデータ) (2024-05-10T15:54:55Z) - Cross-domain and Cross-dimension Learning for Image-to-Graph
Transformers [50.576354045312115]
直接画像からグラフへの変換は、単一のモデルにおけるオブジェクトの検出と関係予測を解決するための課題である。
画像-グラフ変換器のクロスドメインおよびクロス次元変換学習を可能にする一連の手法を提案する。
そこで我々は,2次元の衛星画像上でモデルを事前学習し,それを2次元および3次元の異なるターゲット領域に適用する。
論文 参考訳(メタデータ) (2024-03-11T10:48:56Z) - Integral Migrating Pre-trained Transformer Encoder-decoders for Visual
Object Detection [78.2325219839805]
imTEDは、数発のオブジェクト検出の最先端を最大7.6%改善する。
MS COCOデータセットの実験は、imTEDが一貫してそのデータセットを2.8%上回っていることを示している。
論文 参考訳(メタデータ) (2022-05-19T15:11:20Z) - ProFormer: Learning Data-efficient Representations of Body Movement with
Prototype-based Feature Augmentation and Visual Transformers [31.908276711898548]
身体からのデータ効率の高い認識法は、画像のような配列として構造化された骨格配列をますます活用している。
我々は、このパラダイムをトランスフォーマーネットワークの観点から見て、初めて、骨格運動のデータ効率の高いエンコーダとして視覚トランスフォーマーを探索する。
私たちのパイプラインでは、画像のような表現としてキャストされたボディポーズシーケンスをパッチ埋め込みに変換し、深いメトリック学習に最適化されたビジュアルトランスフォーマーバックボーンに渡します。
論文 参考訳(メタデータ) (2022-02-23T11:11:54Z) - Swin-Pose: Swin Transformer Based Human Pose Estimation [16.247836509380026]
畳み込みニューラルネットワーク(CNN)は多くのコンピュータビジョンタスクで広く利用されている。
CNNは、固定された受信フィールドを持ち、人間のポーズ推定に不可欠である長距離知覚能力に欠ける。
本稿では,特徴ピラミッド融合構造により拡張されたトランスフォーマーアーキテクチャに基づく新しいモデルを提案する。
論文 参考訳(メタデータ) (2022-01-19T02:15:26Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Locally Aware Piecewise Transformation Fields for 3D Human Mesh
Registration [67.69257782645789]
本論文では,3次元変換ベクトルを学習し,提案空間内の任意のクエリ点をリザーブ空間内の対応する位置にマップする部分変換場を提案する。
パラメトリックモデルにネットワークのポーズを合わせることで、特に極端なポーズにおいて、より優れた登録品質が得られることを示す。
論文 参考訳(メタデータ) (2021-04-16T15:16:09Z) - End-to-End Trainable Multi-Instance Pose Estimation with Transformers [68.93512627479197]
畳み込みニューラルネットワークとトランスを組み合わせることで,マルチインスタンスポーズ推定のための新たなエンドツーエンドトレーニング可能なアプローチを提案する。
変換器を用いたエンドツーエンドのトレーニング可能なオブジェクト検出に関する最近の研究に触発されて、変換器エンコーダデコーダアーキテクチャとバイパーティイトマッチングスキームを併用して、与えられた画像中のすべての個人のポーズを直接回帰する。
提案モデルであるポーズ推定トランスフォーマ(poet)は,キーポイント損失,キーポイント可視性損失,センター損失,クラス損失からなる,新たなセットベースグローバル損失を用いてトレーニングを行う。
論文 参考訳(メタデータ) (2021-03-22T18:19:22Z) - Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。
PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文 参考訳(メタデータ) (2020-07-07T03:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。