論文の概要: Multi-Person Pose Estimation with Enhanced Feature Aggregation and
Selection
- arxiv url: http://arxiv.org/abs/2003.10238v1
- Date: Fri, 20 Mar 2020 08:33:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 22:51:37.101895
- Title: Multi-Person Pose Estimation with Enhanced Feature Aggregation and
Selection
- Title(参考訳): 特徴集約と選択の強化によるマルチパーソンポーズ推定
- Authors: Xixia Xu, Qi Zou, Xue Lin
- Abstract要約: 複数人物のポーズ推定のためのEFASNet(Enhanced Feature Aggregation and Selection Network)を提案する。
我々の手法は、混み合った、散らばった、ぎこちないシーンをうまく扱える。
総合的な実験により、提案手法は最先端の手法よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 33.15192824888279
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel Enhanced Feature Aggregation and Selection network
(EFASNet) for multi-person 2D human pose estimation. Due to enhanced feature
representation, our method can well handle crowded, cluttered and occluded
scenes. More specifically, a Feature Aggregation and Selection Module (FASM),
which constructs hierarchical multi-scale feature aggregation and makes the
aggregated features discriminative, is proposed to get more accurate
fine-grained representation, leading to more precise joint locations. Then, we
perform a simple Feature Fusion (FF) strategy which effectively fuses
high-resolution spatial features and low-resolution semantic features to obtain
more reliable context information for well-estimated joints. Finally, we build
a Dense Upsampling Convolution (DUC) module to generate more precise
prediction, which can recover missing joint details that are usually
unavailable in common upsampling process. As a result, the predicted keypoint
heatmaps are more accurate. Comprehensive experiments demonstrate that the
proposed approach outperforms the state-of-the-art methods and achieves the
superior performance over three benchmark datasets: the recent big dataset
CrowdPose, the COCO keypoint detection dataset and the MPII Human Pose dataset.
Our code will be released upon acceptance.
- Abstract(参考訳): 本稿では,多人数2次元ポーズ推定のための機能集約・選択ネットワーク(efasnet)を提案する。
特徴表現の強化により,混み合った,散らばった,閉ざされたシーンをうまく処理できる。
より具体的には、階層的なマルチスケールな特徴集約を構築し、集約された特徴を識別する機能集約選択モジュール(fasm)が、より正確な細粒度表現を得るために提案され、より正確なジョイントロケーションが導かれる。
そして,高分解能な空間特徴と低分解能な意味的特徴を効果的に融合し,より信頼性の高いコンテキスト情報を得るための簡易な特徴融合(FF)戦略を実行する。
最後に、より正確な予測を生成するために、Dense Upsampling Convolution (DUC)モジュールを構築します。
その結果、予測されたキーポイントヒートマップはより正確である。
包括的な実験では、提案されたアプローチが最先端の手法より優れ、最近のビッグデータCrowdPose、COCOキーポイント検出データセット、MPII Human Poseデータセットの3つのベンチマークデータセットよりも優れたパフォーマンスを実現している。
私たちのコードは受け入れ次第解放されます。
関連論文リスト
- CHASE: Learning Convex Hull Adaptive Shift for Skeleton-based Multi-Entity Action Recognition [10.045163723630159]
CHASEはサンプル適応正規化法として機能し、濃度間分布の相違を緩和する。
このアプローチはシングルエンタリティのバックボーンにシームレスに適応し、マルチエンタリティシナリオにおけるパフォーマンスを向上します。
論文 参考訳(メタデータ) (2024-10-09T17:55:43Z) - Enhanced Semantic Segmentation for Large-Scale and Imbalanced Point Clouds [6.253217784798542]
小型の物体は、発生頻度が低いため、アンダーサンプリングや誤分類される傾向がある。
本稿では,大規模かつサンプル不均衡なクラウドシーンを対象としたマルチラテラルカスケーディングネットワーク(MCNet)を提案する。
論文 参考訳(メタデータ) (2024-09-21T02:23:01Z) - GLCONet: Learning Multi-source Perception Representation for Camouflaged Object Detection [23.872633359324098]
我々はGLCONetと呼ばれる新しいグローバルローカル協調最適化ネットワークを提案する。
本稿では、まず、局所的な詳細とグローバルな長距離関係を同時にモデル化するための協調最適化戦略を設計する。
実験により、異なるバックボーンを持つGLCONet法は、画像中の潜在的に重要なピクセルを効果的に活性化できることが示されている。
論文 参考訳(メタデータ) (2024-09-15T02:26:17Z) - RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。
合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。
さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文 参考訳(メタデータ) (2023-10-18T07:30:08Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - BIMS-PU: Bi-Directional and Multi-Scale Point Cloud Upsampling [60.257912103351394]
我々はBIMS-PUと呼ばれる新しいポイント・クラウド・アップサンプリング・パイプラインを開発した。
対象のサンプリング因子を小さな因子に分解することにより,アップ/ダウンサンプリング手順をいくつかのアップ/ダウンサンプリングサブステップに分解する。
提案手法は最先端手法よりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-25T13:13:37Z) - C$^{4}$Net: Contextual Compression and Complementary Combination Network
for Salient Object Detection [0.0]
機能結合は、乗算や加算のような他の組み合わせ方法よりもうまく機能することを示す。
また、共同特徴学習は、処理中の情報共有のため、より良い結果をもたらす。
論文 参考訳(メタデータ) (2021-10-22T16:14:10Z) - DexDeepFM: Ensemble Diversity Enhanced Extreme Deep Factorization
Machine Model [8.73107818888638]
アンサンブルの多様性を高めた極深部分解機モデル(DexDeepFM)を提案する。
2つの公開現実世界のデータセットに関する実験は、提案されたモデルの優位性を示している。
論文 参考訳(メタデータ) (2021-04-05T14:06:32Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - SPU-Net: Self-Supervised Point Cloud Upsampling by Coarse-to-Fine
Reconstruction with Self-Projection Optimization [52.20602782690776]
実際のスキャンされたスパースデータからトレーニング用の大規模なペアリングスパーススキャンポイントセットを得るのは高価で面倒です。
本研究では,SPU-Net と呼ばれる自己監視型点群アップサンプリングネットワークを提案する。
本研究では,合成データと実データの両方について様々な実験を行い,最先端の教師付き手法と同等の性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-08T14:14:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。