論文の概要: QueryPose: Sparse Multi-Person Pose Regression via Spatial-Aware
Part-Level Query
- arxiv url: http://arxiv.org/abs/2212.07855v1
- Date: Thu, 15 Dec 2022 14:22:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 17:08:18.848148
- Title: QueryPose: Sparse Multi-Person Pose Regression via Spatial-Aware
Part-Level Query
- Title(参考訳): QueryPose:空間認識部分レベルクエリによるスパースマルチパーソンポス回帰
- Authors: Yabo Xiao, Kai Su, Xiaojuan Wang, Dongdong Yu, Lei Jin, Mingshu He,
Zehuan Yuan
- Abstract要約: 入力画像から複数人物のキーポイントシーケンスを直接予測できる、QueryPoseと呼ばれるスパースなエンドツーエンドの多対人ポーズ回帰フレームワークを提案する。
我々のフレームワークでは、各人間のインスタンスは複数の学習可能な空間認識部分レベルのクエリによってエンコードされる。
QueryPoseはバイパーティイトマッチングにより、手書きのポストプロセスを避け、MS mini-val の73.6 AP と CrowdPose のテストセットの72.7 AP で既存の高密度なエンドツーエンドメソッドを上回ります。
- 参考スコア(独自算出の注目度): 15.934593709289931
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a sparse end-to-end multi-person pose regression framework, termed
QueryPose, which can directly predict multi-person keypoint sequences from the
input image. The existing end-to-end methods rely on dense representations to
preserve the spatial detail and structure for precise keypoint localization.
However, the dense paradigm introduces complex and redundant post-processes
during inference. In our framework, each human instance is encoded by several
learnable spatial-aware part-level queries associated with an instance-level
query. First, we propose the Spatial Part Embedding Generation Module (SPEGM)
that considers the local spatial attention mechanism to generate several
spatial-sensitive part embeddings, which contain spatial details and structural
information for enhancing the part-level queries. Second, we introduce the
Selective Iteration Module (SIM) to adaptively update the sparse part-level
queries via the generated spatial-sensitive part embeddings stage-by-stage.
Based on the two proposed modules, the part-level queries are able to fully
encode the spatial details and structural information for precise keypoint
regression. With the bipartite matching, QueryPose avoids the hand-designed
post-processes and surpasses the existing dense end-to-end methods with 73.6 AP
on MS COCO mini-val set and 72.7 AP on CrowdPose test set. Code is available at
https://github.com/buptxyb666/QueryPose.
- Abstract(参考訳): 本稿では,入力画像から直接多人数キーポイントシーケンスを予測できる,sparse end-to-end multi-person pose regression frameworkであるqueryposeを提案する。
既存のエンド・ツー・エンド法は、正確なキーポイントのローカライズのための空間的詳細と構造を保存するために、密接な表現に依存する。
しかし、密集したパラダイムは推論中に複雑で冗長な後処理を導入する。
我々のフレームワークでは、各ヒトのインスタンスは、インスタンスレベルのクエリに関連するいくつかの学習可能な空間認識部分レベルのクエリによってエンコードされる。
まず,局所的な空間的注意機構を考慮した空間的部分埋め込み生成モジュール(SPEGM)を提案する。
第2に,Selective Iteration Module (SIM)を導入して,生成した空間感性部分の埋め込みを段階的に行うことで,疎部分レベルのクエリを適応的に更新する。
提案した2つのモジュールに基づいて、部分レベルのクエリは、空間的詳細と構造情報を完全エンコードして、正確なキーポイント回帰を行うことができる。
2部構成のマッチングにより、QueryPoseは手作業で設計された後処理を回避し、MS COCO の 73.6 AP と CrowdPose のテストセット 72.7 AP で既存の高密度なエンドツーエンドメソッドを超える。
コードはhttps://github.com/buptxyb666/QueryPoseで入手できる。
関連論文リスト
- Instance-free Text to Point Cloud Localization with Relative Position Awareness [37.22900045434484]
テキスト・ツー・ポイント・クラウド クロスモーダル・ローカライゼーションは、未来のロボットと人間のコラボレーションにとって重要な視覚言語タスクである。
既存のアプローチの2つの重要な制限に対処する: 1) 地中実例への依存を入力とし、2) 潜在事例間の相対的な位置を無視する。
提案モデルは,テキストセル検索のための粗いステージと位置推定のための微細なステージを含む,2段階のパイプラインに従う。
論文 参考訳(メタデータ) (2024-04-27T09:46:49Z) - Temporal-aware Hierarchical Mask Classification for Video Semantic
Segmentation [62.275143240798236]
ビデオセマンティックセグメンテーションデータセットは、ビデオ毎のカテゴリが限られている。
VSSトレーニング中に意味のある勾配更新を受けるために、クエリの10%未満がマッチする可能性がある。
提案手法は,最新のVSSベンチマークVSPWにおいてベルやホイッスルを使わずに,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-14T20:31:06Z) - PSGformer: Enhancing 3D Point Cloud Instance Segmentation via Precise
Semantic Guidance [11.097083846498581]
PSGformerは、新しい3Dインスタンスセグメンテーションネットワークである。
3Dインスタンスセグメンテーションのパフォーマンスを高めるために、2つの重要な進歩が組み込まれている。
これは、mAPの点でScanNetv2の隠れテストセットで比較した最先端のメソッドを2.2%上回る。
論文 参考訳(メタデータ) (2023-07-15T04:45:37Z) - Hierarchical Matching and Reasoning for Multi-Query Image Retrieval [113.44470784756308]
マルチクエリ画像検索のための階層マッチング・推論ネットワーク(HMRN)を提案する。
MQIRを3つの階層的なセマンティック表現に分解し、きめ細かい局所的な詳細、文脈的グローバルスコープ、高レベルの固有の相関をキャプチャする責任を負う。
我々のHMRNは最先端の手法を大幅に上回っている。
論文 参考訳(メタデータ) (2023-06-26T07:03:56Z) - Reference Twice: A Simple and Unified Baseline for Few-Shot Instance Segmentation [103.90033029330527]
FSIS(Few-Shot Instance)は、サポート例が限定された新しいクラスの検出とセグメンテーションを必要とする。
我々は、FSISのサポートとクエリ機能の関係を利用するための統合フレームワーク、Reference Twice(RefT)を導入する。
論文 参考訳(メタデータ) (2023-01-03T15:33:48Z) - Dynamic Focus-aware Positional Queries for Semantic Segmentation [94.6834904076914]
本稿では,動的焦点認識型位置情報クエリと呼ばれるセマンティックセグメンテーションのための,シンプルで効果的なクエリ設計を提案する。
我々のフレームワークはSOTAの性能を達成し、ResNet-50、Swin-T、Swin-Bのバックボーンによる1.1%、1.9%、および1.1%の単一スケールmIoUでMask2formerより優れています。
論文 参考訳(メタデータ) (2022-04-04T05:16:41Z) - Improving Video Instance Segmentation via Temporal Pyramid Routing [61.10753640148878]
Video Instance(VIS)は、ビデオシーケンス内の各インスタンスを検出し、セグメンテーションし、追跡することを目的とした、新しい、本質的にはマルチタスク問題である。
隣接する2つのフレームからなる特徴ピラミッド対から画素レベルのアグリゲーションを条件付きで調整し,実行するための時間ピラミッドルーティング(TPR)戦略を提案する。
我々のアプローチはプラグイン・アンド・プレイモジュールであり、既存のインスタンス・セグメンテーション・メソッドにも容易に適用できます。
論文 参考訳(メタデータ) (2021-07-28T03:57:12Z) - Spatial Object Recommendation with Hints: When Spatial Granularity
Matters [42.51352610054967]
空間的粒度の異なるレベルで、トップK空間オブジェクト推奨をサポートする方法を検討する。
関心のポイント(POI)間の空間的包摂関係をキャプチャするPOI木の利用を提案する。
我々はMPR(Multi-level POI Recommendation)と呼ばれる新しいマルチタスク学習モデルを設計し、各タスクは特定の空間的粒度レベルでトップk POIを返すことを目的としている。
論文 参考訳(メタデータ) (2021-01-08T11:39:51Z) - AutoPose: Searching Multi-Scale Branch Aggregation for Pose Estimation [96.29533512606078]
本稿では,新しいニューラルアーキテクチャサーチ(NAS)フレームワークであるAutoPoseを紹介する。
高精度で高解像度な2次元ポーズ推定に向けて、クロススケール接続の複数の並列ブランチを自動的に検出することができる。
論文 参考訳(メタデータ) (2020-08-16T22:27:43Z) - Multi-Person Pose Estimation with Enhanced Feature Aggregation and
Selection [33.15192824888279]
複数人物のポーズ推定のためのEFASNet(Enhanced Feature Aggregation and Selection Network)を提案する。
我々の手法は、混み合った、散らばった、ぎこちないシーンをうまく扱える。
総合的な実験により、提案手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-03-20T08:33:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。