論文の概要: Waterfall Transformer for Multi-person Pose Estimation
- arxiv url: http://arxiv.org/abs/2411.18944v1
- Date: Thu, 28 Nov 2024 06:24:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:20:16.675940
- Title: Waterfall Transformer for Multi-person Pose Estimation
- Title(参考訳): 多人数姿勢推定のための降水変圧器
- Authors: Navin Ranjan, Bruno Artacho, Andreas Savakis,
- Abstract要約: We propose the Waterfall Transformer Architecture for Pose Estimation (WTPose)。
WTPoseは、多人数のポーズ推定のために設計された、シングルパスでエンドツーエンドのトレーニング可能なフレームワークである。
- 参考スコア(独自算出の注目度): 3.2771631221674333
- License:
- Abstract: We propose the Waterfall Transformer architecture for Pose estimation (WTPose), a single-pass, end-to-end trainable framework designed for multi-person pose estimation. Our framework leverages a transformer-based waterfall module that generates multi-scale feature maps from various backbone stages. The module performs filtering in the cascade architecture to expand the receptive fields and to capture local and global context, therefore increasing the overall feature representation capability of the network. Our experiments on the COCO dataset demonstrate that the proposed WTPose architecture, with a modified Swin backbone and transformer-based waterfall module, outperforms other transformer architectures for multi-person pose estimation
- Abstract(参考訳): 複数対人ポーズ推定用に設計された単一パスでエンドツーエンドのトレーニング可能なフレームワークであるWTPose(Waterfall Transformer Architecture for Pose Estimation)を提案する。
本フレームワークでは,様々なバックボーンステージからマルチスケールの特徴マップを生成するトランスフォーマーベースのウォーターフォールモジュールを活用している。
モジュールは、受信フィールドを拡張し、ローカルおよびグローバルなコンテキストをキャプチャするためにカスケードアーキテクチャでフィルタリングを行うため、ネットワークの全体的な特徴表現能力を増大させる。
提案したWTPoseアーキテクチャは,修正Swinバックボーンとトランスフォーマーベースウォーターフォールモジュールにより,マルチパーソンポーズ推定のための他のトランスフォーマーアーキテクチャより優れていることを示す。
関連論文リスト
- MB-TaylorFormer: Multi-branch Efficient Transformer Expanded by Taylor
Formula for Image Dehazing [88.61523825903998]
トランスフォーマーネットワークは、コンピュータビジョンの分野における純粋な畳み込みニューラルネットワーク(CNN)を置き換えるようになった。
そこで本研究では,Taylor拡張を応用してソフトマックスアテンションを近似し,線形計算複雑性を実現するトランスフォーマー変種を提案する。
提案するTransformerにマルチスケールパッチを組み込んだマルチブランチアーキテクチャを導入する。
Taylor式(MB-TaylorFormer)により拡張されたMulti-branch Transformerと呼ばれる我々のモデルは、パッチ埋め込み段階でより柔軟に粗さを微細な特徴に埋め込むことができ、計算コストに制限のある長距離画素相互作用を捉えることができる。
論文 参考訳(メタデータ) (2023-08-27T08:10:23Z) - Swin-Pose: Swin Transformer Based Human Pose Estimation [16.247836509380026]
畳み込みニューラルネットワーク(CNN)は多くのコンピュータビジョンタスクで広く利用されている。
CNNは、固定された受信フィールドを持ち、人間のポーズ推定に不可欠である長距離知覚能力に欠ける。
本稿では,特徴ピラミッド融合構造により拡張されたトランスフォーマーアーキテクチャに基づく新しいモデルを提案する。
論文 参考訳(メタデータ) (2022-01-19T02:15:26Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - BAPose: Bottom-Up Pose Estimation with Disentangled Waterfall
Representations [3.8073142980733]
BAPoseは、多人数ポーズ推定のための最先端結果を実現する新しいフレームワークである。
挑戦的なCOCOとCrowdPoseデータセットに関する我々の結果は、BAPoseが効率的で堅牢なフレームワークであることを示している。
論文 参考訳(メタデータ) (2021-12-20T18:07:09Z) - UniNet: Unified Architecture Search with Convolution, Transformer, and
MLP [62.401161377258234]
本稿では,コンボリューション,トランスフォーマー,COCOの最適組み合わせを共同で探索し,一連の全演算型ネットワークアーキテクチャを構築することを提案する。
広範に使われているストリップド・コンボリューション (strided convolution) あるいはプール・ベース・ダウンサンプリング・モジュールは,演算子を結合してネットワークを形成する場合,性能上のボトルネックとなる。
変換器と演算子によって捕捉されるグローバルなコンテキストによりよく対処するために,2つの新しいコンテキスト対応ダウンサンプリングモジュールを提案する。
論文 参考訳(メタデータ) (2021-10-08T11:09:40Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - TransVG: End-to-End Visual Grounding with Transformers [102.11922622103613]
本稿では,画像に対して言語クエリを接地するタスクに対処するためのトランスフォーマティブベースのフレームワークであるtransvgを提案する。
複雑な核融合モジュールは、高い性能でトランスフォーマーエンコーダ層を単純なスタックで置き換えることができることを示す。
論文 参考訳(メタデータ) (2021-04-17T13:35:24Z) - End-to-End Trainable Multi-Instance Pose Estimation with Transformers [68.93512627479197]
畳み込みニューラルネットワークとトランスを組み合わせることで,マルチインスタンスポーズ推定のための新たなエンドツーエンドトレーニング可能なアプローチを提案する。
変換器を用いたエンドツーエンドのトレーニング可能なオブジェクト検出に関する最近の研究に触発されて、変換器エンコーダデコーダアーキテクチャとバイパーティイトマッチングスキームを併用して、与えられた画像中のすべての個人のポーズを直接回帰する。
提案モデルであるポーズ推定トランスフォーマ(poet)は,キーポイント損失,キーポイント可視性損失,センター損失,クラス損失からなる,新たなセットベースグローバル損失を用いてトレーニングを行う。
論文 参考訳(メタデータ) (2021-03-22T18:19:22Z) - OmniPose: A Multi-Scale Framework for Multi-Person Pose Estimation [3.8073142980733]
本稿では,多人数ポーズ推定のための最先端結果を実現する,エンドツーエンドのトレーニング可能な単一パスフレームワークを提案する。
OmniPoseはマルチパーソンポーズ推定のための頑健で効率的なアーキテクチャであることを示す。
論文 参考訳(メタデータ) (2021-03-18T11:30:31Z) - UniPose: Unified Human Pose Estimation in Single Images and Videos [3.04585143845864]
本稿では,我々の「ウォーターフォール」アトラス空間ポーリングアーキテクチャに基づく,人間のポーズ推定のための統一的なフレームワークを提案する。
UniPoseは、コンテキストセグメンテーションとジョイントローカライゼーションを取り入れて、人間のポーズを単一のステージで推定する。
複数のデータセットで得られた結果は、ResNetのバックボーンとウォーターフォールモジュールを備えたUniPoseが、ポーズ推定のための堅牢で効率的なアーキテクチャであることを実証している。
論文 参考訳(メタデータ) (2020-01-22T15:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。