論文の概要: LGM-Pose: A Lightweight Global Modeling Network for Real-time Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2506.04561v1
- Date: Thu, 05 Jun 2025 02:29:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.491912
- Title: LGM-Pose: A Lightweight Global Modeling Network for Real-time Human Pose Estimation
- Title(参考訳): LGM-Pose: リアルタイム・ヒューマン・ポース推定のための軽量グローバル・モデリング・ネットワーク
- Authors: Biao Guo, Fangmin Guo, Guibo Luo, Xiaonan Luo, Feng Zhang,
- Abstract要約: これらの課題に対処するために,シングルブランチ軽量グローバルモデリングネットワーク (LGM-Pose) が提案されている。
このネットワークでは、軽量なMobileViMブロックが、LARM(Lightweight Attentional Representation Module)として提案されている。
- 参考スコア(独自算出の注目度): 9.000760165185532
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most of the current top-down multi-person pose estimation lightweight methods are based on multi-branch parallel pure CNN network architecture, which often struggle to capture the global context required for detecting semantically complex keypoints and are hindered by high latency due to their intricate and redundant structures. In this article, an approximate single-branch lightweight global modeling network (LGM-Pose) is proposed to address these challenges. In the network, a lightweight MobileViM Block is designed with a proposed Lightweight Attentional Representation Module (LARM), which integrates information within and between patches using the Non-Parametric Transformation Operation(NPT-Op) to extract global information. Additionally, a novel Shuffle-Integrated Fusion Module (SFusion) is introduced to effectively integrate multi-scale information, mitigating performance degradation often observed in single-branch structures. Experimental evaluations on the COCO and MPII datasets demonstrate that our approach not only reduces the number of parameters compared to existing mainstream lightweight methods but also achieves superior performance and faster processing speeds.
- Abstract(参考訳): 現在のトップダウンマルチパーソンポーズ推定軽量手法のほとんどは、マルチブランチ並列純粋CNNネットワークアーキテクチャに基づいており、意味論的に複雑なキーポイントを検出するのに必要なグローバルコンテキストを捉えるのに苦慮し、複雑で冗長な構造のため、遅延に悩まされることが多い。
本稿では、これらの課題に対処するために、LGM-Pose(Lingle-branch lightweight global modeling network)を近似的に提案する。
このネットワークでは、非パラメトリック変換操作(NPT-Op)を用いてパッチ内およびパッチ間の情報を統合し、グローバル情報を抽出する軽量なMobileViMブロックが提案されている。
さらに、マルチスケール情報を効果的に統合するために、新しいShuffle-Integrated Fusion Module (SFusion)を導入し、単一ブランチ構造でよく見られる性能劣化を軽減した。
COCOデータセットとMPIIデータセットを実験的に評価したところ、我々の手法は既存の主流の軽量手法に比べてパラメータ数を削減できるだけでなく、優れた性能と高速な処理速度を達成できることがわかった。
関連論文リスト
- Any Image Restoration via Efficient Spatial-Frequency Degradation Adaptation [158.37640586809187]
劣化した画像を1つのモデルで効率的に復元することは、ますます重要になっている。
我々のアプローチはAnyIRと呼ばれ、様々な劣化にまたがる固有の類似性を活用する統一された経路をとっています。
劣化認識と文脈的注意を融合させるため,空間周波数並列融合戦略を提案する。
論文 参考訳(メタデータ) (2025-04-19T09:54:46Z) - CFMD: Dynamic Cross-layer Feature Fusion for Salient Object Detection [7.262250906929891]
クロス層機能ピラミッドネットワーク(CFPN)は,多層機能融合と境界詳細保存において顕著な進歩を遂げている。
これらの課題に対処するために,CFMDという,2つの重要なイノベーションを取り入れた,新しいクロスレイヤ機能ピラミッドネットワークを提案する。
まず,現在最先端のMambaアーキテクチャを組み込んで動的重み分布機構を構築するコンテキスト認識機能集約モジュール(CFLMA)を設計する。
第2に,分解能回復時に空間的詳細を保存する適応動的アップサンプリングユニット(CFLMD)を導入する。
論文 参考訳(メタデータ) (2025-04-02T03:22:36Z) - A Low-Complexity Plug-and-Play Deep Learning Model for Massive MIMO Precoding Across Sites [5.896656636095934]
MMIMO技術は、スペクトル効率とネットワーク容量を向上させることで、無線通信を変革した。
本稿では,既存のアプローチの複雑性問題に対処するための,新しいディープラーニングベースのmMIMOプリコーダを提案する。
論文 参考訳(メタデータ) (2025-02-12T20:02:36Z) - A feature refinement module for light-weight semantic segmentation network [11.285793559719702]
本稿では,軽量ネットワークのセマンティック情報を得る能力を向上させるために,新しいセマンティックセマンティックセマンティクス手法を提案する。
Cityscapes と Bdd100K のデータセットを用いて,提案手法が精度と計算コストのトレードオフを期待できることを示す。
論文 参考訳(メタデータ) (2024-12-11T03:31:20Z) - ECoFLaP: Efficient Coarse-to-Fine Layer-Wise Pruning for Vision-Language
Models [70.45441031021291]
LVLM(Large Vision-Language Models)は、様々なモダリティから豊富な情報を統合することで、世界を包括的に理解することができる。
LVLMは計算/エネルギーの膨大なコストと炭素消費のためにしばしば問題となる。
本稿では,LVLMの2段間粗大な重み付け法であるECoFLaP(Efficient Coarse-to-Fine LayerWise Pruning)を提案する。
論文 参考訳(メタデータ) (2023-10-04T17:34:00Z) - MFPNet: Multi-scale Feature Propagation Network For Lightweight Semantic
Segmentation [5.58363644107113]
マルチスケール特徴伝達ネットワーク(Net)と呼ばれる,新しい軽量セグメンテーションアーキテクチャを提案する。
フレキシブル・ボトルネック・残差モジュール(BRM)からなる対称残差ブロックを有するロバスト・デコーダ構造を設計する。
遅延長範囲のコンテキスト関係をモデル化する能力の利点を生かして、グラフ畳み込みネットワーク(GCN)を活用し、BRMブロック間のマルチスケールフィーチャの伝搬を容易にする。
論文 参考訳(メタデータ) (2023-09-10T02:02:29Z) - Local-Global Transformer Enhanced Unfolding Network for Pan-sharpening [13.593522290577512]
パンシャーピングは,低分解能マルチスペクトル (LrMS) 画像の空間分解能を,対応するパンクロマティック (PAN) 画像の誘導により向上することを目的としている。
深層学習(DL)に基づくパンシャーピング法は有望な性能を達成しているが、そのほとんどは2倍の欠損を有する。
論文 参考訳(メタデータ) (2023-04-28T03:34:36Z) - Transformer-based Context Condensation for Boosting Feature Pyramids in
Object Detection [77.50110439560152]
現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。
我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。
特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
論文 参考訳(メタデータ) (2022-07-14T01:45:03Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - Middle-level Fusion for Lightweight RGB-D Salient Object Detection [81.43951906434175]
本稿では,新しい軽量RGB-D SODモデルについて述べる。
中層核融合構造に IMFF および L モジュールが組み込まれているため,提案モデルは3.9M のパラメータしか持たず,33 FPS で動作する。
いくつかのベンチマークデータセットによる実験結果から,提案手法の有効性と優位性を検証した。
論文 参考訳(メタデータ) (2021-04-23T11:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。