論文の概要: DRSI-Net: Dual-Residual Spatial Interaction Network for Multi-Person Pose Estimation
- arxiv url: http://arxiv.org/abs/2402.16640v2
- Date: Thu, 9 May 2024 14:12:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-10 17:49:31.947815
- Title: DRSI-Net: Dual-Residual Spatial Interaction Network for Multi-Person Pose Estimation
- Title(参考訳): DRSI-Net:マルチパーソンポーズ推定のための二重残留空間相互作用ネットワーク
- Authors: Shang Wu, Bin Wang,
- Abstract要約: 本稿では,MPPEのための2次元空間相互作用ネットワーク(DRSI-Net)を提案する。
他の手法と比較して、DRSI-Netは隣接する特徴について空間的情報通信を行う。
提案したDRSI-Netは、他の最先端の手法よりも精度と複雑さが優れている。
- 参考スコア(独自算出の注目度): 7.418828517897727
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-person pose estimation (MPPE), which aims to locate the key points for all persons in the frames, is an active research branch of computer vision. Variable human poses and complex scenes make MPPE dependent on local details and global structures; their absence may cause key point feature misalignment. In this case, high-order spatial interactions that can effectively link the local and global information of features are particularly important. However, most methods do not include spatial interactions. A few methods have low-order spatial interactions, but achieving a good balance between accuracy and complexity is challenging. To address the above problems, a dual-residual spatial interaction network (DRSI-Net) for MPPE with high accuracy and low complexity is proposed herein. Compared to other methods, DRSI-Net recursively performs residual spatial information interactions on the neighbouring features so that more useful spatial information can be retained and more similarities can be obtained between shallow and deep extracted features. The channel and spatial dual attention mechanism introduced in the multi-scale feature fusion also helps the network to adaptively focus on features relevant to the target key points and further refine the generated poses. Simultaneously, by optimising the interactive channel dimensions and dividing the gradient flow, the spatial interaction module is designed to be lightweight, thus reducing the complexity of the network. According to the experimental results on the COCO dataset, the proposed DRSI-Net outperforms other state-of-the-art methods in accuracy and complexity.
- Abstract(参考訳): フレーム内のすべての人のキーポイントを特定することを目的とした多人数ポーズ推定(MPPE)は、コンピュータビジョンの活発な研究分野である。
多様な人間のポーズや複雑なシーンはMPPEを局所的な細部やグローバルな構造に依存している。
この場合、特徴の局所的および大域的情報を効果的にリンクできる高次空間的相互作用が特に重要である。
しかし、ほとんどの手法は空間的相互作用を含まない。
少数の手法は低次の空間的相互作用を持つが、精度と複雑さのバランスが良いことは困難である。
上記の問題に対処するため,MPPEのための2次元空間相互作用ネットワーク(DRSI-Net)を提案する。
他の方法と比較して、DRSI-Netは、より有用な空間情報を保持し、浅い特徴と深い特徴の間により類似性を得ることができるように、隣接する特徴について残留空間情報インタラクションを再帰的に行う。
マルチスケール機能融合で導入されたチャネルと空間の二重注意機構は、ターゲットキーポイントに関連する特徴に適応的に焦点を合わせ、生成したポーズをさらに洗練するのに役立つ。
同時に、対話的なチャネル次元を最適化し、勾配流を分割することにより、空間的相互作用モジュールは軽量に設計され、ネットワークの複雑さが軽減される。
COCOデータセットの実験結果によると、提案されたDRSI-Netは他の最先端の手法よりも精度と複雑さが優れている。
関連論文リスト
- Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Point-aware Interaction and CNN-induced Refinement Network for RGB-D
Salient Object Detection [95.84616822805664]
我々は,CNNによるトランスフォーマーアーキテクチャを導入し,ポイント・アウェア・インタラクションとCNNによるリファインメントを備えた新しいRGB-D SODネットワークを提案する。
トランスフォーマーがもたらすブロック効果とディテール破壊問題を自然に軽減するために,コンテンツリファインメントとサプリメントのためのCNNRユニットを設計する。
論文 参考訳(メタデータ) (2023-08-17T11:57:49Z) - GlobalMind: Global Multi-head Interactive Self-attention Network for
Hyperspectral Change Detection [22.22495802857453]
地球の地表の高解像度画像により、ユーザーは微細なスケールで経時変化をモニターすることができる。
現在のアルゴリズムの多くは、まだローカルな特徴を記述することに限られており、グローバルな視点を取り入れていない。
我々は,異なる表面オブジェクトと変種土地被覆変換の暗黙的相関を探索するために,グローバルマルチヘッド Interactive Self-attention Change Detection Network (GlobalMind) を提案する。
論文 参考訳(メタデータ) (2023-04-18T01:43:17Z) - Learning to Aggregate Multi-Scale Context for Instance Segmentation in
Remote Sensing Images [28.560068780733342]
特徴抽出のプロセスを改善するために,新しいコンテキスト集約ネットワーク(CATNet)を提案する。
提案モデルは,高密度特徴ピラミッドネットワーク(DenseFPN),空間コンテキストピラミッド(SCP),階層的関心抽出器(HRoIE)の3つの軽量プラグアンドプレイモジュールを利用する。
論文 参考訳(メタデータ) (2021-11-22T08:55:25Z) - RRNet: Relational Reasoning Network with Parallel Multi-scale Attention
for Salient Object Detection in Optical Remote Sensing Images [82.1679766706423]
光リモートセンシング画像(RSI)のためのSODは、光学RSIから視覚的に特徴的な物体や領域を探索・抽出することを目的としている。
光学RSIにおけるSODに並列なマルチスケールアテンションを持つリレーショナル推論ネットワークを提案する。
提案するRRNetは,既存の最先端SODコンペティタよりも質的,定量的に優れている。
論文 参考訳(メタデータ) (2021-10-27T07:18:32Z) - Video Salient Object Detection via Adaptive Local-Global Refinement [7.723369608197167]
ビデオ・サリエント・オブジェクト検出(VSOD)は多くの視覚アプリケーションにおいて重要な課題である。
vsodのための適応型局所的グローバルリファインメントフレームワークを提案する。
重み付け手法は特徴相関を更に活用し,ネットワークにより識別的な特徴表現を学習させることができることを示す。
論文 参考訳(メタデータ) (2021-04-29T14:14:11Z) - High-resolution Depth Maps Imaging via Attention-based Hierarchical
Multi-modal Fusion [84.24973877109181]
誘導DSRのための新しい注意に基づく階層型マルチモーダル融合ネットワークを提案する。
本手法は,再現精度,動作速度,メモリ効率の点で最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-04T03:28:33Z) - Multi-Attention-Network for Semantic Segmentation of Fine Resolution
Remote Sensing Images [10.835342317692884]
リモートセンシング画像におけるセマンティックセグメンテーションの精度は、ディープ畳み込みニューラルネットワークによって著しく向上した。
本稿では,これらの問題に対処するマルチアテンション・ネットワーク(MANet)を提案する。
線形複雑性を伴うカーネル注意の新たなアテンション機構が提案され,注目される計算負荷の低減が図られた。
論文 参考訳(メタデータ) (2020-09-03T09:08:02Z) - Cross-Attention in Coupled Unmixing Nets for Unsupervised Hyperspectral
Super-Resolution [79.97180849505294]
本稿では,HSIの空間分解能を高めるために,CUCaNetというクロスアテンション機構を備えた新しい結合型アンミックスネットワークを提案する。
3つの広く使われているHS-MSデータセットに対して、最先端のHSI-SRモデルと比較実験を行った。
論文 参考訳(メタデータ) (2020-07-10T08:08:20Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z) - Hybrid Multiple Attention Network for Semantic Segmentation in Aerial
Images [24.35779077001839]
グローバルな相関関係を適応的に捉えるために,Hybrid Multiple Attention Network (HMANet) という新しいアテンションベースのフレームワークを提案する。
本稿では,機能的冗長性を低減し,自己注意機構の効率を向上させるため,単純で効果的な領域シャッフルアテンション(RSA)モジュールを提案する。
論文 参考訳(メタデータ) (2020-01-09T07:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。