論文の概要: Improved TokenPose with Sparsity
- arxiv url: http://arxiv.org/abs/2311.09653v1
- Date: Thu, 16 Nov 2023 08:12:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 15:46:18.808360
- Title: Improved TokenPose with Sparsity
- Title(参考訳): 疎水性によるトケンプースの改良
- Authors: Anning Li
- Abstract要約: 我々は、人間のポーズ推定を改善するために、キーポイントトークンアテンションと視覚トークンアテンションの両方に空間性を導入する。
MPIIデータセットによる実験結果から,本モデルは精度が高く,本手法の有効性が証明された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over the past few years, the vision transformer and its various forms have
gained significance in human pose estimation. By treating image patches as
tokens, transformers can capture global relationships wisely, estimate the
keypoint tokens by leveraging the visual tokens, and recognize the posture of
the human body. Nevertheless, global attention is computationally demanding,
which poses a challenge for scaling up transformer-based methods to
high-resolution features. In this paper, we introduce sparsity in both keypoint
token attention and visual token attention to improve human pose estimation.
Experimental results on the MPII dataset demonstrate that our model has a
higher level of accuracy and proved the feasibility of the method, achieving
new state-of-the-art results. The idea can also provide references for other
transformer-based models.
- Abstract(参考訳): 過去数年間、視覚変換器とその様々な形態は人間のポーズ推定において重要視されてきた。
画像パッチをトークンとして扱うことで、トランスフォーマーはグローバルな関係を賢く捉え、視覚トークンを利用してキーポイントトークンを推定し、人間の姿勢を認識することができる。
それでも、グローバルに注目されるのは計算の要求であり、トランスフォーマーベースの方法を高解像度機能にスケールアップする上での課題となっている。
本稿では,人間のポーズ推定を改善するために,キーポイントトークンアテンションと視覚トークンアテンションの両方に空間性を導入する。
MPIIデータセットによる実験結果から,本モデルは精度が高く,本手法の有効性が証明され,新たな最先端結果が得られた。
このアイデアは他のトランスフォーマーベースのモデルへの参照を提供することもできる。
関連論文リスト
- DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - DAT++: Spatially Dynamic Vision Transformer with Deformable Attention [87.41016963608067]
Deformable Attention Transformer (DAT++)を提案する。
DAT++は、85.9%のImageNet精度、54.5および47.0のMS-COCOインスタンスセグメンテーションmAP、51.5のADE20KセマンティックセグメンテーションmIoUで、様々なビジュアル認識ベンチマークで最先端の結果を達成している。
論文 参考訳(メタデータ) (2023-09-04T08:26:47Z) - Enhancing Landmark Detection in Cluttered Real-World Scenarios with
Vision Transformers [2.900522306460408]
本研究は,視覚的位置認識におけるランドマーク検出の進歩に寄与する。
これは、現実のシナリオを散らかすことによって引き起こされる課題を克服するために、ビジョントランスフォーマーを活用する可能性を示している。
論文 参考訳(メタデータ) (2023-08-25T21:01:01Z) - MiVOLO: Multi-input Transformer for Age and Gender Estimation [0.0]
最新の視覚変換器を用いた年齢・性別推定手法であるMiVOLOを提案する。
本手法は両タスクを統合された二重入力/出力モデルに統合する。
モデルの年齢認識性能を人間レベルの精度と比較し、ほとんどの年齢範囲で人間よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-10T14:58:10Z) - Image Deblurring by Exploring In-depth Properties of Transformer [86.7039249037193]
我々は、事前訓練された視覚変換器(ViT)から抽出した深い特徴を活用し、定量的な測定値によって測定された性能を犠牲にすることなく、回復した画像のシャープ化を促進する。
得られた画像と対象画像の変換器特徴を比較することにより、事前学習された変換器は、高解像度のぼやけた意味情報を提供する。
特徴をベクトルとみなし、抽出された画像から抽出された表現とユークリッド空間における対象表現との差を計算する。
論文 参考訳(メタデータ) (2023-03-24T14:14:25Z) - PPT: token-Pruned Pose Transformer for monocular and multi-view human
pose estimation [25.878375219234975]
本研究では,粗い人間のマスクの位置を推定し,選択したトークン内でのみ自己注意を行うことのできる2次元ポーズ推定用トークン処理ポストランス (PPT) を提案する。
我々はまた、人間の前景ピクセルを対応する候補とみなす、ヒト領域融合と呼ばれる新しいクロスビュー融合戦略を提案する。
論文 参考訳(メタデータ) (2022-09-16T23:22:47Z) - Visualizing and Understanding Patch Interactions in Vision Transformer [96.70401478061076]
Vision Transformer (ViT) は様々なコンピュータビジョンタスクにおいて主要なツールとなっている。
本稿では,視覚変換器のパッチ間の重要な注意相互作用を分析し,解釈するための,説明可能な新しい可視化手法を提案する。
論文 参考訳(メタデータ) (2022-03-11T13:48:11Z) - ProFormer: Learning Data-efficient Representations of Body Movement with
Prototype-based Feature Augmentation and Visual Transformers [31.908276711898548]
身体からのデータ効率の高い認識法は、画像のような配列として構造化された骨格配列をますます活用している。
我々は、このパラダイムをトランスフォーマーネットワークの観点から見て、初めて、骨格運動のデータ効率の高いエンコーダとして視覚トランスフォーマーを探索する。
私たちのパイプラインでは、画像のような表現としてキャストされたボディポーズシーケンスをパッチ埋め込みに変換し、深いメトリック学習に最適化されたビジュアルトランスフォーマーバックボーンに渡します。
論文 参考訳(メタデータ) (2022-02-23T11:11:54Z) - Learning Generative Vision Transformer with Energy-Based Latent Space
for Saliency Prediction [51.80191416661064]
本稿では,有意な物体検出に先立って,潜伏変数を持つ新しい視覚変換器を提案する。
ビジョントランスネットワークとエネルギーベース先行モデルの両方は、マルコフ連鎖モンテカルロによる最大推定を通じて共同で訓練される。
生成型視覚変換器により、画像から容易に画素単位の不確実性マップを得ることができ、画像から唾液濃度を予測するためのモデル信頼度を示す。
論文 参考訳(メタデータ) (2021-12-27T06:04:33Z) - End-to-End Trainable Multi-Instance Pose Estimation with Transformers [68.93512627479197]
畳み込みニューラルネットワークとトランスを組み合わせることで,マルチインスタンスポーズ推定のための新たなエンドツーエンドトレーニング可能なアプローチを提案する。
変換器を用いたエンドツーエンドのトレーニング可能なオブジェクト検出に関する最近の研究に触発されて、変換器エンコーダデコーダアーキテクチャとバイパーティイトマッチングスキームを併用して、与えられた画像中のすべての個人のポーズを直接回帰する。
提案モデルであるポーズ推定トランスフォーマ(poet)は,キーポイント損失,キーポイント可視性損失,センター損失,クラス損失からなる,新たなセットベースグローバル損失を用いてトレーニングを行う。
論文 参考訳(メタデータ) (2021-03-22T18:19:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。