論文の概要: MamKPD: A Simple Mamba Baseline for Real-Time 2D Keypoint Detection
- arxiv url: http://arxiv.org/abs/2412.01422v1
- Date: Mon, 02 Dec 2024 12:03:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:45:10.323398
- Title: MamKPD: A Simple Mamba Baseline for Real-Time 2D Keypoint Detection
- Title(参考訳): MamKPD:リアルタイム2Dキーポイント検出のためのシンプルなMambaベースライン
- Authors: Yonghao Dang, Liyuan Liu, Hui Kang, Ping Ye, Jianqin Yin,
- Abstract要約: MamKPDは、2次元キーポイント検出のための最初の効率的かつ効果的なマンバベースのポーズ推定フレームワークである。
すべてのパッチのグローバルモデリングにMambaを組み合わせることで、MamKPDはインスタンスのポーズ情報を効果的に抽出する。
我々のMamKPD-Lは、NVIDIA GTX 4090 GPU上で1492 FPSのCOCOデータセットで77.3%APを達成した。
- 参考スコア(独自算出の注目度): 13.678314551293113
- License:
- Abstract: Real-time 2D keypoint detection plays an essential role in computer vision. Although CNN-based and Transformer-based methods have achieved breakthrough progress, they often fail to deliver superior performance and real-time speed. This paper introduces MamKPD, the first efficient yet effective mamba-based pose estimation framework for 2D keypoint detection. The conventional Mamba module exhibits limited information interaction between patches. To address this, we propose a lightweight contextual modeling module (CMM) that uses depth-wise convolutions to model inter-patch dependencies and linear layers to distill the pose cues within each patch. Subsequently, by combining Mamba for global modeling across all patches, MamKPD effectively extracts instances' pose information. We conduct extensive experiments on human and animal pose estimation datasets to validate the effectiveness of MamKPD. Our MamKPD-L achieves 77.3% AP on the COCO dataset with 1492 FPS on an NVIDIA GTX 4090 GPU. Moreover, MamKPD achieves state-of-the-art results on the MPII dataset and competitive results on the AP-10K dataset while saving 85% of the parameters compared to ViTPose. Our project page is available at https://mamkpd.github.io/.
- Abstract(参考訳): リアルタイム2Dキーポイント検出はコンピュータビジョンにおいて重要な役割を果たす。
CNNベースの手法とTransformerベースの手法は画期的な進歩を遂げているが、性能とリアルタイムの速度が向上しないことが多い。
本稿では,2次元キーポイント検出のためのマンバ型ポーズ推定フレームワークであるMamKPDを紹介する。
従来のMambaモジュールはパッチ間の限られた情報相互作用を示す。
そこで本研究では,パッチ間の依存関係をモデル化するための深度的畳み込みと,各パッチ内のポーズキューを抽出する線形レイヤを用いた,軽量なコンテキストモデリングモジュールを提案する。
その後、すべてのパッチのグローバルモデリングにMambaを組み合わせることで、MamKPDはインスタンスのポーズ情報を効果的に抽出する。
MamKPDの有効性を検証するために,ヒトおよび動物のポーズ推定データセットについて広範な実験を行った。
我々のMamKPD-Lは、NVIDIA GTX 4090 GPU上で1492 FPSのCOCOデータセットで77.3%APを達成した。
さらに、MamKPDはMPIIデータセットの最先端結果とAP-10Kデータセットの競合結果を達成すると同時に、ViTPoseと比較してパラメータの85%を節約する。
私たちのプロジェクトページはhttps://mamkpd.github.io/.com/で公開されている。
関連論文リスト
- MedSegMamba: 3D CNN-Mamba Hybrid Architecture for Brain Segmentation [15.514511820130474]
我々は皮質下脳分割のための3DパッチベースのハイブリッドCNN-Mambaモデルを開発した。
モデルの性能をいくつかのベンチマークで検証した。
論文 参考訳(メタデータ) (2024-09-12T02:19:19Z) - LaMamba-Diff: Linear-Time High-Fidelity Diffusion Models Based on Local Attention and Mamba [54.85262314960038]
局所的意図的マンバブロックは、大域的コンテキストと局所的詳細の両方を線形複雑性でキャプチャする。
このモデルは, 256x256の解像度で, ImageNet上の様々なモデルスケールでDiTの性能を上回り, 優れたスケーラビリティを示す。
ImageNet 256x256 と 512x512 の最先端拡散モデルと比較すると,最大 62% GFLOP の削減など,我々の最大のモデルには顕著な利点がある。
論文 参考訳(メタデータ) (2024-08-05T16:39:39Z) - Keypoint Aware Masked Image Modelling [0.34530027457862006]
KAMIMは16.12%から33.97%に改善され、ImageNet-1Kデータセットで同じ数のエポックでトレーニングされた際には76.78%から77.3%まで微調整精度が向上した。
また,KAMIMを用いて訓練したViT-Bの学習表現を解析し,その行動に関する対照的な学習と同様の行動を示す。
論文 参考訳(メタデータ) (2024-07-18T19:41:46Z) - Vision Mamba for Classification of Breast Ultrasound Images [9.90112908284836]
MambaベースのモデルであるVMambaとVimは、最近のビジョンエンコーダのファミリーであり、多くのコンピュータビジョンタスクで有望なパフォーマンス改善を提供する。
本稿では,乳房超音波BUSIデータセットと乳房超音波Bデータセットを用いて,マンバモデルと従来の畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT)を比較した。
論文 参考訳(メタデータ) (2024-07-04T00:21:47Z) - MaIL: Improving Imitation Learning with Mamba [30.96458274130313]
Mamba Imitation Learning (MaIL)は、最先端(SoTA)トランスフォーマーベースのポリシーの代替を提供する。
Mambaのアーキテクチャは、重要な特徴に焦点をあてることで、表現学習効率を高める。
MaILは、制限されたデータで全てのLIBEROタスクでトランスフォーマーを一貫して上回る。
論文 参考訳(メタデータ) (2024-06-12T14:01:12Z) - MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection [72.46396769642787]
ネスト構造であるMamba-in-Mamba(MiM-ISTD)を開発した。
MiM-ISTDはSOTA法より8倍高速で、2048×2048$のイメージでテストすると、GPUメモリ使用率を62.2$%削減する。
論文 参考訳(メタデータ) (2024-03-04T15:57:29Z) - Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining [85.08169822181685]
本稿では,医療画像のセグメンテーションに特化して設計された新しいマンバモデルSwin-UMambaを紹介する。
Swin-UMamba は CNN や ViT,最新の Mamba ベースのモデルと比較して,優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-05T18:58:11Z) - CAE v2: Context Autoencoder with CLIP Target [63.61868058214267]
マスク付き画像モデリング(MIM)は、画像パッチのマスキングと再構成によって視覚表現を学習する。
再建管理をCLIP表現に適用することはMIMに有効であることが証明されている。
CLIPをターゲットとしたMIMの精製戦略を検討するため,MIMにおける2つの重要な要素,すなわち,監督位置とマスク比について検討した。
論文 参考訳(メタデータ) (2022-11-17T18:58:33Z) - Rethinking Keypoint Representations: Modeling Keypoints and Poses as
Objects for Multi-Person Human Pose Estimation [79.78017059539526]
本研究では,個々のキーポイントと空間的関連キーポイント(ポーズ)の集合を,密集した単一ステージアンカーベース検出フレームワーク内のオブジェクトとしてモデル化する,新しいヒートマップフリーなキーポイント推定手法を提案する。
実験では, KAPAOは従来手法よりもはるかに高速かつ高精度であり, 熱マップ後処理に悩まされていた。
我々の大規模モデルであるKAPAO-Lは、テスト時間拡張なしでMicrosoft COCO Keypoints検証セット上で70.6のAPを達成する。
論文 参考訳(メタデータ) (2021-11-16T15:36:44Z) - Learning Delicate Local Representations for Multi-Person Pose Estimation [77.53144055780423]
我々はResidual Steps Network (RSN) と呼ばれる新しい手法を提案する。
RSNは同じ空間サイズ(イントラレベルの特徴)の機能を効率よく集約し、微妙な局所表現を得る。
当社のアプローチは,COCO Keypoint Challenge 2019で第1位を獲得しました。
論文 参考訳(メタデータ) (2020-03-09T10:40:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。