論文の概要: DPIT: Dual-Pipeline Integrated Transformer for Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2209.02431v1
- Date: Fri, 2 Sep 2022 10:18:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 14:21:39.660286
- Title: DPIT: Dual-Pipeline Integrated Transformer for Human Pose Estimation
- Title(参考訳): dpit:人間のポーズ推定のためのデュアルパイプライン統合トランス
- Authors: Shuaitao Zhao, Kun Liu, Yuhang Huang, Qian Bao, Dan Zeng, and Wu Liu
- Abstract要約: ポーズ推定のための新しいDual-Pipeline Integrated Transformer (DPIT)を提案する。
DPITは2つのブランチで構成され、ボトムアップブランチは全体像を扱い、グローバルな視覚情報をキャプチャする。
ボトムアップとトップダウンの分岐から抽出した特徴表現をトランスフォーマーエンコーダに入力し、グローバルとローカルの知識を対話的に融合させる。
- 参考スコア(独自算出の注目度): 24.082220581799156
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human pose estimation aims to figure out the keypoints of all people in
different scenes. Current approaches still face some challenges despite
promising results. Existing top-down methods deal with a single person
individually, without the interaction between different people and the scene
they are situated in. Consequently, the performance of human detection degrades
when serious occlusion happens. On the other hand, existing bottom-up methods
consider all people at the same time and capture the global knowledge of the
entire image. However, they are less accurate than the top-down methods due to
the scale variation. To address these problems, we propose a novel
Dual-Pipeline Integrated Transformer (DPIT) by integrating top-down and
bottom-up pipelines to explore the visual clues of different receptive fields
and achieve their complementarity. Specifically, DPIT consists of two branches,
the bottom-up branch deals with the whole image to capture the global visual
information, while the top-down branch extracts the feature representation of
local vision from the single-human bounding box. Then, the extracted feature
representations from bottom-up and top-down branches are fed into the
transformer encoder to fuse the global and local knowledge interactively.
Moreover, we define the keypoint queries to explore both full-scene and
single-human posture visual clues to realize the mutual complementarity of the
two pipelines. To the best of our knowledge, this is one of the first works to
integrate the bottom-up and top-down pipelines with transformers for human pose
estimation. Extensive experiments on COCO and MPII datasets demonstrate that
our DPIT achieves comparable performance to the state-of-the-art methods.
- Abstract(参考訳): 人間のポーズ推定は、異なるシーンにいるすべての人々のキーポイントを見つけることを目的としています。
現在のアプローチは、有望な結果にもかかわらず、いくつかの課題に直面している。
既存のトップダウンメソッドは、異なる人とその場所にあるシーンの間のインタラクションなしで、個別に1人を扱う。
その結果、重篤な閉塞が発生した場合、人間の検出性能は低下する。
一方、既存のボトムアップ手法では、すべての人を同時に考慮し、画像全体のグローバルな知識を捉えている。
しかし、それらはスケールのばらつきのため、トップダウン方式よりも正確ではない。
これらの問題に対処するために, トップダウンとボトムアップのパイプラインを統合し, 異なる受容野の視覚的な手がかりを探索し, 相補性を達成する新しいデュアルパイプライン統合トランス(dpit)を提案する。
具体的には、dpitは2つのブランチから成り、ボトムアップブランチは全画像を処理してグローバルな視覚情報をキャプチャし、トップダウンブランチは1つの人間のバウンディングボックスからローカルビジョンの特徴表現を抽出する。
そして、ボトムアップとトップダウンの分岐から抽出した特徴表現をトランスフォーマーエンコーダに入力し、グローバルとローカルの知識をインタラクティブに融合させる。
さらに,2つのパイプラインの相互相補性を実現するために,キーポイントクエリを定義し,フルシーンと1人姿勢の視覚的手がかりを探索する。
私たちの知る限りでは、ボトムアップとトップダウンのパイプラインを人間のポーズ推定のためのトランスフォーマーに統合する最初の作業のひとつです。
COCOとMPIIデータセットの大規模な実験により、私たちのDPITは最先端の手法と同等のパフォーマンスを達成しています。
関連論文リスト
- AiOS: All-in-One-Stage Expressive Human Pose and Shape Estimation [55.179287851188036]
人間のポーズと形状の復元のための新しいオールインワンステージフレームワークであるAiOSを、追加の人間検出ステップなしで導入する。
まず、画像中の人間の位置を探索し、各インスタンスのグローバルな機能をエンコードするために、人間のトークンを使用します。
そして、画像中の人間の関節を探索し、きめ細かい局所的特徴を符号化するジョイント関連トークンを導入する。
論文 参考訳(メタデータ) (2024-03-26T17:59:23Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Learning Feature Recovery Transformer for Occluded Person
Re-identification [71.18476220969647]
本稿では,FRT(Feature Recovery Transformer)と呼ばれる2つの課題を同時に解決する手法を提案する。
特徴マッチング時のノイズの干渉を低減するため,両画像に現れる可視領域に着目し,類似性を計算するための可視グラフを開発した。
2つ目の課題は、グラフの類似性に基づいて、各クエリ画像に対して、ギャラリー内の$k$-nearestの隣人の特徴セットを利用して、完全な特徴を復元するリカバリトランスフォーマを提案することである。
論文 参考訳(メタデータ) (2023-01-05T02:36:16Z) - Sequential Transformer for End-to-End Person Search [4.920657401819193]
人物探索は、現実的かつ未収集のギャラリーイメージから対象人物を同時にローカライズし、認識することを目的としている。
本稿では,この課題に対処するエンド・ツー・エンドの人物探索のためのシークエンシャル・トランスフォーマー(SeqTR)を提案する。
我々のSeqTRは検出変換器と、検出タスクと再IDタスクを逐次処理する新しいre-ID変換器を備えている。
論文 参考訳(メタデータ) (2022-11-06T09:32:30Z) - Cascade Transformers for End-to-End Person Search [18.806369852341334]
エンドツーエンドの人物検索のためのカスケード付加注意変換器(COAT)を提案する。
COATは、第1段階の人の検出に焦点を当て、第2段階の人の検出と再識別の表現を同時に、段階的に洗練する。
2つのベンチマークデータセット上で最先端の性能を達成することで,本手法の利点を実証する。
論文 参考訳(メタデータ) (2022-03-17T22:42:12Z) - Monocular 3D Multi-Person Pose Estimation by Integrating Top-Down and
Bottom-Up Networks [33.974241749058585]
マルチパーソンポーズ推定は、人間の検出が間違っている可能性があり、人間の結合群は信頼できない。
既存のトップダウン手法は人間の検出に依存しているため、これらの問題に悩まされる。
我々は,その強みを生かすために,トップダウンアプローチとボトムアップアプローチの統合を提案する。
論文 参考訳(メタデータ) (2021-04-05T07:05:21Z) - End-to-End Trainable Multi-Instance Pose Estimation with Transformers [68.93512627479197]
畳み込みニューラルネットワークとトランスを組み合わせることで,マルチインスタンスポーズ推定のための新たなエンドツーエンドトレーニング可能なアプローチを提案する。
変換器を用いたエンドツーエンドのトレーニング可能なオブジェクト検出に関する最近の研究に触発されて、変換器エンコーダデコーダアーキテクチャとバイパーティイトマッチングスキームを併用して、与えられた画像中のすべての個人のポーズを直接回帰する。
提案モデルであるポーズ推定トランスフォーマ(poet)は,キーポイント損失,キーポイント可視性損失,センター損失,クラス損失からなる,新たなセットベースグローバル損失を用いてトレーニングを行う。
論文 参考訳(メタデータ) (2021-03-22T18:19:22Z) - A Global to Local Double Embedding Method for Multi-person Pose
Estimation [10.05687757555923]
本稿では,人検出と関節検出を同時に行うことにより,パイプラインを簡素化する新しい手法を提案する。
マルチパーソンポーズ推定タスクをグローバルからローカルに完了するダブルエンベディング(DE)手法を提案する。
MSCOCO, MPII および CrowdPose のベンチマークを用いて,本手法の有効性と一般化能力を示す。
論文 参考訳(メタデータ) (2021-02-15T03:13:38Z) - AdaFuse: Adaptive Multiview Fusion for Accurate Human Pose Estimation in
the Wild [77.43884383743872]
本稿では,アダプティブなマルチビュー融合手法であるAdaFuseについて述べる。
我々は、Human3.6M、Total Capture、CMU Panopticの3つの公開データセットに対するアプローチを広く評価した。
また,大規模合成データセットOcclusion-Personを作成し,咬合関節の数値評価を行う。
論文 参考訳(メタデータ) (2020-10-26T03:19:46Z) - Gradient-Induced Co-Saliency Detection [81.54194063218216]
Co-SOD(Co-saliency Detection)は、一般的な唾液前景を関連画像のグループに分割することを目的としている。
本稿では,人間の行動にインスパイアされた,勾配誘導型共分散検出法を提案する。
論文 参考訳(メタデータ) (2020-04-28T08:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。