Fugu-MT 論文翻訳(概要): Attention-Enhanced Lightweight Hourglass Network for Human Pose Estimation

論文の概要: Attention-Enhanced Lightweight Hourglass Network for Human Pose Estimation

arxiv url: http://arxiv.org/abs/2412.06227v1
Date: Mon, 09 Dec 2024 06:02:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-10 23:11:44.233404
Title: Attention-Enhanced Lightweight Hourglass Network for Human Pose Estimation
Title（参考訳）: 人の姿勢推定のためのアテンション強化軽量フールグラスネットワーク
Authors: Marsha Mariya Kappan, Eduardo Benitez Sandoval, Erik Meijering, Francisco Cruz,
Abstract要約: 本稿では,奥行き分離可能な畳み込みと畳み込みブロック注意モジュールを利用する軽量な注目型ポーズ推定ネットワークを提案する。このモデルは2.3Mパラメータと3.7G FLOPでこの性能を達成する。
参考スコア（独自算出の注目度）: 6.885386072475789
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pose estimation is a critical task in computer vision with a wide range of applications from activity monitoring to human-robot interaction. However,most of the existing methods are computationally expensive or have complex architecture. Here we propose a lightweight attention based pose estimation network that utilizes depthwise separable convolution and Convolutional Block Attention Module on an hourglass backbone. The network significantly reduces the computational complexity (floating point operations) and the model size (number of parameters) containing only about 10% of parameters of original eight stack Hourglass network.Experiments were conducted on COCO and MPII datasets using a two stack hourglass backbone. The results showed that our model performs well in comparison to six other lightweight pose estimation models with an average precision of 72.07. The model achieves this performance with only 2.3M parameters and 3.7G FLOPs.
Abstract（参考訳）: ポース推定は、活動監視から人間とロボットの相互作用まで幅広い用途でコンピュータビジョンにおいて重要なタスクである。しかし、既存の手法のほとんどは計算コストがかかるか複雑なアーキテクチャである。本稿では,時間ガラスのバックボーン上に,奥行き分離可能な畳み込みと畳み込みブロック注意モジュールを利用する軽量な注目型ポーズ推定ネットワークを提案する。このネットワークは計算複雑性(浮動小数点演算)とモデルサイズ(パラメータ数)を大幅に低減し,2スタックの時間ガラスバックボーンを用いてCOCOおよびMPIIデータセット上で実験を行った。その結果,他の6種類の軽量ポーズ推定モデルと比較すると,平均精度は72.07。このモデルは2.3Mパラメータと3.7G FLOPでこの性能を達成する。

関連論文リスト

Efficient Oriented Object Detection with Enhanced Small Object Recognition in Aerial Images [2.9138705529771123]
本稿では,オブジェクト指向物体検出タスクに適したYOLOv8モデルを新たに拡張する。本モデルでは,ASFP(Adaptive Scale Feature Pyramid)モジュールと,P2層の詳細を利用したウェーブレット変換に基づくC2fモジュールを特徴とする。我々のアプローチは233万のパラメータを持つDecoupleNetよりも効率的なアーキテクチャ設計を提供し、検出精度を維持しています。
論文参考訳（メタデータ） (2024-12-17T05:45:48Z)
Interpretable 2D Vision Models for 3D Medical Images [47.75089895500738]
本研究では,3次元画像処理における中間特徴表現を用いた2次元ネットワークの適応手法を提案する。我々は、ベンチマークとして3D MedMNISTデータセットと、既存の手法に匹敵する数百の高分解能CTまたはMRIスキャンからなる2つの実世界のデータセットを示す。
論文参考訳（メタデータ） (2023-07-13T08:27:09Z)
Exploring Object-Centric Temporal Modeling for Efficient Multi-View 3D Object Detection [20.161887223481994]
マルチビュー3Dオブジェクト検出のための長周期モデリングフレームワークStreamPETRを提案する。 StreamPETRは、単一フレームのベースラインと比較して、無視可能なコストでのみ、大幅なパフォーマンス向上を実現している。軽量版は45.0%のmAPと31.7のFPSを実現し、2.3%のmAPと1.8倍の高速FPSを達成している。
論文参考訳（メタデータ） (2023-03-21T15:19:20Z)
Pushing the Limits of Asynchronous Graph-based Object Detection with Event Cameras [62.70541164894224]
低計算を維持しながら、そのようなモデルの深さと複雑さを拡大できるアーキテクチャ選択をいくつか導入する。我々の手法は、密度の高いグラフニューラルネットワークよりも3.7倍高速に動作し、前方通過はわずか8.4msである。
論文参考訳（メタデータ） (2022-11-22T15:14:20Z)
Simultaneous Multiple Object Detection and Pose Estimation using 3D Model Infusion with Monocular Vision [21.710141497071373]
複数物体の検出とポーズ推定はコンピュータビジョンの重要なタスクである。単眼視と3Dモデルを用いた同時ニューラルモデリングを提案する。我々の同時多重物体検出・ポース推定ネットワーク(SMOPE-Net)は、エンドツーエンドのトレーニング可能なマルチタスクネットワークである。
論文参考訳（メタデータ） (2022-11-21T05:18:56Z)
Could Giant Pretrained Image Models Extract Universal Representations? [94.97056702288317]
本稿では,多種多様なコンピュータビジョンタスクに適用した凍結事前学習モデルについて述べる。私たちの研究は、この凍結した設定にどのような事前学習タスクが最適か、凍結した設定を様々な下流タスクに柔軟にする方法、より大きなモデルサイズの影響について、質問に答えています。
論文参考訳（メタデータ） (2022-11-03T17:57:10Z)
DPNet: Dual-Path Network for Real-time Object Detection with Lightweight Attention [15.360769793764526]
本稿では,リアルタイム物体検出のための軽量アテンション方式を用いて,DPNetというデュアルパスネットワークを提案する。 DPNetは、検出精度と実装効率の間の最先端のトレードオフを実現する。
論文参考訳（メタデータ） (2022-09-28T09:11:01Z)
MoEfication: Conditional Computation of Transformer Models for Efficient Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文参考訳（メタデータ） (2021-10-05T02:14:38Z)
STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文参考訳（メタデータ） (2021-07-15T02:53:11Z)
Compressed Object Detection [15.893905488328283]
我々は,不必要なモデル接続を捨てる圧縮技術であるプルーニングを拡張し,オブジェクト検出作業のための重み共有技術を提案する。我々は、性能を損なうことなく、最先端のオブジェクト検出モデルを30.0%圧縮することができる。
論文参考訳（メタデータ） (2021-02-04T21:32:56Z)
EfficientPose: Efficient Human Pose Estimation with Neural Architecture Search [47.30243595690131]
効率的なバックボーンと効率的なヘッドの2つの部分を含む、人間のポーズ推定を目的とした効率的なフレームワークを提案します。我々の最小モデルは、MPIIで88.1%のPCKh@0.5の0.65 GFLOPしか持たず、我々の大モデルは2 GFLOPしか持たないが、その精度は最先端の大型モデルと競合する。
論文参考訳（メタデータ） (2020-12-13T15:38:38Z)
Temporal Attention-Augmented Graph Convolutional Network for Efficient Skeleton-Based Human Action Recognition [97.14064057840089]
グラフネットワーク(GCN)はユークリッド以外のデータ構造をモデル化するのに非常に成功した。ほとんどのGCNベースのアクション認識手法は、計算量の多いディープフィードフォワードネットワークを使用して、全てのスケルトンをアクションで処理する。本稿では,骨格に基づく行動認識の効率を高めるための時間的アテンションモジュール(TAM)を提案する。
論文参考訳（メタデータ） (2020-10-23T08:01:55Z)
2nd Place Scheme on Action Recognition Track of ECCV 2020 VIPriors Challenges: An Efficient Optical Flow Stream Guided Framework [57.847010327319964]
我々は、小さなデータセットでモデルをスクラッチからトレーニングできるデータ効率フレームワークを提案する。具体的には、3D中心差分畳み込み演算を導入することで、新しいC3Dニューラルネットワークベースの2ストリームフレームワークを提案する。提案手法は,大規模データセット上で事前学習したモデルがなくても,有望な結果が得られることを実証した。
論文参考訳（メタデータ） (2020-08-10T09:50:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。