論文の概要: EMO-X: Efficient Multi-Person Pose and Shape Estimation in One-Stage
- arxiv url: http://arxiv.org/abs/2504.08718v1
- Date: Fri, 11 Apr 2025 17:30:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:18:36.410733
- Title: EMO-X: Efficient Multi-Person Pose and Shape Estimation in One-Stage
- Title(参考訳): EMO-X: 効率的なマルチパーソンポースと1段階形状推定
- Authors: Haohang Jian, Jinlu Zhang, Junyi Wu, Zhigang Tu,
- Abstract要約: EMO-Xは,多人数表現型人文・形状推定(EHPS)のための効率的な多人数一段階モデルである。
我々のEMO-XはMambaの優れたグローバルモデリング機能を活用し、骨格を意識した局所精錬のための局所的双方向走査機構を設計する。
計算複雑性の大幅な低減を実現し、最先端(SOTA)法に比べて69.8%の推論時間を必要とするが、精度ではその大半を上回っている。
- 参考スコア(独自算出の注目度): 12.983739967750195
- License:
- Abstract: Expressive Human Pose and Shape Estimation (EHPS) aims to jointly estimate human pose, hand gesture, and facial expression from monocular images. Existing methods predominantly rely on Transformer-based architectures, which suffer from quadratic complexity in self-attention, leading to substantial computational overhead, especially in multi-person scenarios. Recently, Mamba has emerged as a promising alternative to Transformers due to its efficient global modeling capability. However, it remains limited in capturing fine-grained local dependencies, which are essential for precise EHPS. To address these issues, we propose EMO-X, the Efficient Multi-person One-stage model for multi-person EHPS. Specifically, we explore a Scan-based Global-Local Decoder (SGLD) that integrates global context with skeleton-aware local features to iteratively enhance human tokens. Our EMO-X leverages the superior global modeling capability of Mamba and designs a local bidirectional scan mechanism for skeleton-aware local refinement. Comprehensive experiments demonstrate that EMO-X strikes an excellent balance between efficiency and accuracy. Notably, it achieves a significant reduction in computational complexity, requiring 69.8% less inference time compared to state-of-the-art (SOTA) methods, while outperforming most of them in accuracy.
- Abstract(参考訳): EHPS(Expressive Human Pose and Shape Estimation)は、モノクロ画像から人間のポーズ、ジェスチャー、表情を共同で推定することを目的としている。
既存の手法は主にトランスフォーマーベースのアーキテクチャに依存しており、これは自己注意の二次的な複雑さに悩まされ、特にマルチパーソンのシナリオにおいて、かなりの計算オーバーヘッドをもたらす。
最近、Mambaは、効率的なグローバルモデリング能力のためにTransformersに代わる有望な代替品として登場した。
しかし、正確なEHPSに不可欠な、きめ細かいローカル依存関係の取得には、依然として制限がある。
これらの課題に対処するため,マルチパーソンEHPSのための効率的なマルチパーソンワンステージモデルであるEMO-Xを提案する。
具体的には,Scanをベースとしたグローバルローカルデコーダ(Global-Local Decoder,SGLD)について検討する。
我々のEMO-XはMambaの優れたグローバルモデリング機能を活用し、骨格を意識した局所精錬のための局所的双方向走査機構を設計する。
総合的な実験により、EMO-Xは効率と精度のバランスが良好であることが示された。
特に、計算複雑性の大幅な低減を実現し、最先端(SOTA)法に比べて69.8%の推論時間を必要とし、精度ではその大半を上回っている。
関連論文リスト
- SMPLest-X: Ultimate Scaling for Expressive Human Pose and Shape Estimation [81.36747103102459]
表現的人間のポーズと形状推定(EHPS)は、身体、手、顔の動きを多数の応用で統合する。
現在の最先端の手法は、限定されたデータセット上で革新的なアーキテクチャ設計を訓練することに焦点を当てている。
本稿では,EHPSのスケールアップが一般基盤モデルのファミリに与える影響について検討する。
論文 参考訳(メタデータ) (2025-01-16T18:59:46Z) - Optimizing Local-Global Dependencies for Accurate 3D Human Pose Estimation [2.1330933342577096]
SSR-STFは,局所的な特徴をグローバルな依存関係と統合し,人間の3次元ポーズ推定を強化する2重ストリームモデルである。
具体的には,SSRFormerについて紹介する。SSRFormerは,スケルトン選択的精細注意(SSRA)機構を用いて,局所的なきめ細かい依存関係を捕捉するシンプルなモジュールである。
Human3.6M と MPI-INF-3DHP のデータセットの実験では、SSR-STF がそれぞれ37.4 mm と 13.2 mm の誤差で最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-12-27T14:54:12Z) - PoseMamba: Monocular 3D Human Pose Estimation with Bidirectional Global-Local Spatio-Temporal State Space Model [7.286873011001679]
単眼ビデオにおける複雑な人間のポーズ推定のための線形相関を用いたSSMに基づく純粋手法を提案する。
具体的には、各フレーム内だけでなく、フレーム間の人間の関節関係を包括的にモデル化する、双方向の時間的・時間的ブロックを提案する。
この戦略により、より論理的な幾何学的順序付け戦略が提供され、結果として局所空間スキャンが組み合わせられる。
論文 参考訳(メタデータ) (2024-08-07T04:38:03Z) - EEGMamba: Bidirectional State Space Model with Mixture of Experts for EEG Multi-task Classification [1.4004287903552533]
脳波アプリケーションのためのマルチタスク学習を真に実装した最初のユニバーサル脳波分類ネットワークであるEEGMambaを紹介する。
EEGMambaは、Spatio-Temporal-Adaptive (ST-Adaptive)モジュール、双方向のMamba、Mixture of Experts (MoE)をシームレスに統合したフレームワークに統合する。
本研究では,8つの公用EEGデータセットを用いてモデルの評価を行い,その性能を4種類のタスクで実証した。
論文 参考訳(メタデータ) (2024-07-20T11:15:47Z) - Decentralized Transformers with Centralized Aggregation are Sample-Efficient Multi-Agent World Models [106.94827590977337]
本稿では,分散化された局所力学を拡張性のために学習するマルチエージェントRL(MARL)の新たな世界モデルを提案する。
また、集中表現アグリゲーションを可能にする効果的なソリューションとしてPerceiver Transformerを導入する。
Starcraft Multi-Agent Challenge (SMAC) の結果は、サンプル効率と全体的な性能の両方において、強力なモデルフリーアプローチと既存のモデルベース手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-06-22T12:40:03Z) - FER-YOLO-Mamba: Facial Expression Detection and Classification Based on Selective State Space [9.68374853606234]
本稿では,マンバとヨロの原理を統合したFER-YOLO-Mambaモデルを提案する。
FER-YOLO-Mambaモデルでは,局所特徴抽出における畳み込み層固有の強度を組み合わせたFER-YOLO-VSSデュアルブランチモジュールをさらに考案する。
私たちの知る限りでは、顔の表情検出と分類のために設計された最初のVision Mambaモデルである。
論文 参考訳(メタデータ) (2024-05-03T03:20:37Z) - Multi-Head Mixture-of-Experts [100.60556163597946]
MH-MoE(Multi-Head Mixture-of-Experts)を提案する。
MH-MoEは、他のSMoE最適化手法の実装と分離が容易であり、性能向上のために他のSMoEモデルとの統合が容易である。
論文 参考訳(メタデータ) (2024-04-23T13:47:09Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Lightweight Vision Transformer with Bidirectional Interaction [59.39874544410419]
本研究では,視覚変換器の局所的・グローバル的情報をモデル化するためのFASA機構を提案する。
FASAに基づいて、我々はFAT(Fully Adaptive Transformer)ファミリーという軽量なビジョンバックボーンのファミリーを開発した。
論文 参考訳(メタデータ) (2023-06-01T06:56:41Z) - EfficientPose: Scalable single-person pose estimation [3.325625311163864]
一人称ポーズ推定のための新しい畳み込みニューラルネットワークアーキテクチャであるEfficientPoseを提案する。
我々のトップパフォーマンスモデルは、低複雑さのConvNetを用いて、シングルパーソンMPIIにおける最先端の精度を実現する。
複雑さと効率が低いため、EfficientPoseはメモリフットプリントと計算コストを制限し、エッジデバイス上の現実世界のアプリケーションを可能にする。
論文 参考訳(メタデータ) (2020-04-25T16:50:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。