論文の概要: BAPose: Bottom-Up Pose Estimation with Disentangled Waterfall
Representations
- arxiv url: http://arxiv.org/abs/2112.10716v1
- Date: Mon, 20 Dec 2021 18:07:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-21 17:21:38.908794
- Title: BAPose: Bottom-Up Pose Estimation with Disentangled Waterfall
Representations
- Title(参考訳): BAPose: 絡み合ったウォーターフォール表現を用いたボトムアップポス推定
- Authors: Bruno Artacho, Andreas Savakis
- Abstract要約: BAPoseは、多人数ポーズ推定のための最先端結果を実現する新しいフレームワークである。
挑戦的なCOCOとCrowdPoseデータセットに関する我々の結果は、BAPoseが効率的で堅牢なフレームワークであることを示している。
- 参考スコア(独自算出の注目度): 3.8073142980733
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose BAPose, a novel bottom-up approach that achieves state-of-the-art
results for multi-person pose estimation. Our end-to-end trainable framework
leverages a disentangled multi-scale waterfall architecture and incorporates
adaptive convolutions to infer keypoints more precisely in crowded scenes with
occlusions. The multi-scale representations, obtained by the disentangled
waterfall module in BAPose, leverage the efficiency of progressive filtering in
the cascade architecture, while maintaining multi-scale fields-of-view
comparable to spatial pyramid configurations. Our results on the challenging
COCO and CrowdPose datasets demonstrate that BAPose is an efficient and robust
framework for multi-person pose estimation, achieving significant improvements
on state-of-the-art accuracy.
- Abstract(参考訳): BAPoseは,複数人物のポーズ推定のための最先端結果を実現する新しいボトムアップ手法である。
エンド・ツー・エンドのトレーニング可能なフレームワークは,マルチスケールなウォーターフォールアーキテクチャと適応畳み込みを利用して,オクルージョンを伴う混み合ったシーンにおいて,キーポイントをより正確に推測する。
BAPoseのアンタングルドウォーターフォールモジュールによって得られたマルチスケール表現は、空間ピラミッド構成に匹敵するマルチスケールフィールドを維持しながら、カスケードアーキテクチャにおけるプログレッシブフィルタリングの効率を活用している。
難易度の高いCOCOとCrowdPoseデータセットの結果から,BAPoseは多人数ポーズ推定のための効率的で堅牢なフレームワークであり,最先端の精度を大幅に向上させることができた。
関連論文リスト
- Poseidon: A ViT-based Architecture for Multi-Frame Pose Estimation with Adaptive Frame Weighting and Multi-Scale Feature Fusion [43.59385149982744]
単一フレームのポーズ推定は大きな進歩を遂げているが、複雑な連続的な動きを理解するために時間的ダイナミクスを捉えるのに失敗することが多い。
時間情報を統合することでViTPoseモデルを拡張する新しい多フレームポーズ推定アーキテクチャであるPoseidonを提案する。
提案手法は,PoseTrack21とPoseTrack18データセットの最先端性能を実現し,それぞれ88.3と87.8のmAPスコアを得た。
論文 参考訳(メタデータ) (2025-01-14T21:34:34Z) - Waterfall Transformer for Multi-person Pose Estimation [3.2771631221674333]
We propose the Waterfall Transformer Architecture for Pose Estimation (WTPose)。
WTPoseは、多人数のポーズ推定のために設計された、シングルパスでエンドツーエンドのトレーニング可能なフレームワークである。
論文 参考訳(メタデータ) (2024-11-28T06:24:40Z) - UNOPose: Unseen Object Pose Estimation with an Unposed RGB-D Reference Image [86.7128543480229]
単参照型オブジェクトポーズ推定のための新しいアプローチとベンチマークをUNOPoseと呼ぶ。
粗大なパラダイムに基づいて、UNOPoseはSE(3)不変の参照フレームを構築し、オブジェクト表現を標準化する。
重なり合う領域内に存在すると予測される確率に基づいて、各対応の重みを補正する。
論文 参考訳(メタデータ) (2024-11-25T05:36:00Z) - DepthSplat: Connecting Gaussian Splatting and Depth [90.06180236292866]
ガウススプラッティングと深さ推定を結合するDepthSplatを提案する。
まず,事前学習した単眼深度特徴を生かして,頑健な多眼深度モデルを提案する。
また,ガウス的スプラッティングは教師なし事前学習の目的として機能することを示す。
論文 参考訳(メタデータ) (2024-10-17T17:59:58Z) - BaseBoostDepth: Exploiting Larger Baselines For Self-supervised Monocular Depth Estimation [2.1028463367241033]
ポーズ推定の精度を高めるために、インクリメンタルなポーズ推定を導入する。
我々の最終深度ネットワークは、テスト時に計算複雑性を増大させることなく、KITTIとSynS-patchesデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-07-29T22:05:13Z) - 360 Layout Estimation via Orthogonal Planes Disentanglement and Multi-view Geometric Consistency Perception [56.84921040837699]
既存のパノラマ配置推定ソリューションは、垂直圧縮されたシーケンスから部屋の境界を復元し、不正確な結果をもたらす傾向にある。
そこで本稿では,直交平面不整合ネットワーク(DOPNet)を提案し,あいまいな意味論を識別する。
また,水平深度と比表現に適した教師なし適応手法を提案する。
本手法は,単分子配置推定と多視点レイアウト推定の両タスクにおいて,他のSoTAモデルよりも優れる。
論文 参考訳(メタデータ) (2023-12-26T12:16:03Z) - FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。
我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文 参考訳(メタデータ) (2023-12-13T18:28:09Z) - AdaptivePose++: A Powerful Single-Stage Network for Multi-Person Pose
Regression [66.39539141222524]
そこで本研究では,ヒトの部位を適応点として表現し,微細な身体表現法を提案する。
提案するボディ表現では,AdaptivePoseと呼ばれる,コンパクトなシングルステージ多人数ポーズ回帰ネットワークを提供する。
本稿では,AdaptivePoseの有効性を検証するために,2D/3D多人数ポーズ推定タスクにAdaptivePoseを用いる。
論文 参考訳(メタデータ) (2022-10-08T12:54:20Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z) - OmniPose: A Multi-Scale Framework for Multi-Person Pose Estimation [3.8073142980733]
本稿では,多人数ポーズ推定のための最先端結果を実現する,エンドツーエンドのトレーニング可能な単一パスフレームワークを提案する。
OmniPoseはマルチパーソンポーズ推定のための頑健で効率的なアーキテクチャであることを示す。
論文 参考訳(メタデータ) (2021-03-18T11:30:31Z) - UniPose: Unified Human Pose Estimation in Single Images and Videos [3.04585143845864]
本稿では,我々の「ウォーターフォール」アトラス空間ポーリングアーキテクチャに基づく,人間のポーズ推定のための統一的なフレームワークを提案する。
UniPoseは、コンテキストセグメンテーションとジョイントローカライゼーションを取り入れて、人間のポーズを単一のステージで推定する。
複数のデータセットで得られた結果は、ResNetのバックボーンとウォーターフォールモジュールを備えたUniPoseが、ポーズ推定のための堅牢で効率的なアーキテクチャであることを実証している。
論文 参考訳(メタデータ) (2020-01-22T15:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。