論文の概要: GMFL-Net: A Global Multi-geometric Feature Learning Network for Repetitive Action Counting
- arxiv url: http://arxiv.org/abs/2409.00330v1
- Date: Sat, 31 Aug 2024 02:18:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 15:37:00.748405
- Title: GMFL-Net: A Global Multi-geometric Feature Learning Network for Repetitive Action Counting
- Title(参考訳): GMFL-Net: 反復行動計数のためのグローバル多元的特徴学習ネットワーク
- Authors: Jun Li, Jinying Wu, Qiming Li, Feifei Guo,
- Abstract要約: GMFL-Net(Global Multi-geometric Feature Learning Network)を提案する。
具体的には,多幾何学的特徴を融合させて情報表現を改善するMIAモジュールを設計する。
また、ポイントワイド素子とチャネルワイド素子の相互依存性を高めるGBFLモジュールを設計する。
- 参考スコア(独自算出の注目度): 4.117416395116726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the continuous development of deep learning, the field of repetitive action counting is gradually gaining notice from many researchers. Extraction of pose keypoints using human pose estimation networks is proven to be an effective pose-level method. However, existing pose-level methods suffer from the shortcomings that the single coordinate is not stable enough to handle action distortions due to changes in camera viewpoints, thus failing to accurately identify salient poses, and is vulnerable to misdetection during the transition from the exception to the actual action. To overcome these problems, we propose a simple but efficient Global Multi-geometric Feature Learning Network (GMFL-Net). Specifically, we design a MIA-Module that aims to improve information representation by fusing multi-geometric features, and learning the semantic similarity among the input multi-geometric features. Then, to improve the feature representation from a global perspective, we also design a GBFL-Module that enhances the inter-dependencies between point-wise and channel-wise elements and combines them with the rich local information generated by the MIA-Module to synthesise a comprehensive and most representative global feature representation. In addition, considering the insufficient existing dataset, we collect a new dataset called Countix-Fitness-pose (https://github.com/Wantong66/Countix-Fitness) which contains different cycle lengths and exceptions, a test set with longer duration, and annotate it with fine-grained annotations at the pose-level. We also add two new action classes, namely lunge and rope push-down. Finally, extensive experiments on the challenging RepCount-pose, UCFRep-pose, and Countix-Fitness-pose benchmarks show that our proposed GMFL-Net achieves state-of-the-art performance.
- Abstract(参考訳): 深層学習の継続的な発展に伴い、反復的な行動カウントの分野は多くの研究者から徐々に注目されるようになった。
ヒトのポーズ推定ネットワークを用いたポーズキーポイントの抽出は効果的なポーズレベル手法であることが証明された。
しかし、既存のポーズレベルの手法は、カメラの視点の変化による動作歪みに対処するには単一の座標が十分安定していないという欠点に悩まされており、従って適切なポーズを正確に識別することができず、例外から実際のアクションへの移行時の誤検出に対して脆弱である。
これらの問題を解決するために,GMFL-Net(Global Multi-geometric Feature Learning Network)を提案する。
具体的には,マルチジオメトリ特徴を融合させて情報表現を改善することを目的としたMIAモジュールを設計し,入力されたマルチジオメトリ特徴間の意味的類似性を学習する。
そして,グローバルな視点から特徴表現を改善するため,ポイントワイド要素とチャネルワイド要素の相互依存性を高めるGBFLモジュールを設計し,MIAモジュールが生成するリッチな局所情報と組み合わせ,包括的かつ最も代表的なグローバルな特徴表現を合成する。
さらに、既存のデータセットが不足していることを考慮すると、異なるサイクルの長さと例外を含むCountix-Fitness-pose(https://github.com/Wantong66/Countix-Fitness)と呼ばれる新しいデータセット、長い期間のテストセット、ポーズレベルで細かいアノテーションで注釈付けします。
また、肺とロープのプッシュダウンという2つの新しいアクションクラスも追加します。
最後に、RepCount-pose、UCFRep-pose、Countix-Fitness-poseベンチマークの課題について広範な実験を行い、提案したGMFL-Netが最先端の性能を達成することを示す。
関連論文リスト
- RFL-CDNet: Towards Accurate Change Detection via Richer Feature Learning [39.3740222598949]
RFL-CDNetは、よりリッチな特徴学習を利用して変更検出性能を向上させる新しいフレームワークである。
C2FGモジュールは、以前の粗いスケールからのサイド予測を現在の微細スケールの予測にシームレスに統合することを目的としている。
LFモジュールは各ステージと各空間位置の寄与が独立であると仮定し、複数の予測を融合させる学習可能なモジュールを設計する。
論文 参考訳(メタデータ) (2024-04-27T03:07:07Z) - Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。
既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。
これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。
一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2024-04-11T03:00:00Z) - Global Relation Modeling and Refinement for Bottom-Up Human Pose
Estimation [4.24515544235173]
ボトムアップヒトポーズ推定のための畳み込みニューラルネットワークを提案する。
我々のモデルは、地域によって異なる粒度に焦点を合わせることができる。
COCO と CrowdPose のデータセットで得られた結果は,多人数ポーズ推定の効率的なフレームワークであることを実証している。
論文 参考訳(メタデータ) (2023-03-27T02:54:08Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - BIMS-PU: Bi-Directional and Multi-Scale Point Cloud Upsampling [60.257912103351394]
我々はBIMS-PUと呼ばれる新しいポイント・クラウド・アップサンプリング・パイプラインを開発した。
対象のサンプリング因子を小さな因子に分解することにより,アップ/ダウンサンプリング手順をいくつかのアップ/ダウンサンプリングサブステップに分解する。
提案手法は最先端手法よりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-25T13:13:37Z) - Multi-scale Interactive Network for Salient Object Detection [91.43066633305662]
本稿では,隣接レベルからの機能を統合するためのアグリゲート・インタラクション・モジュールを提案する。
より効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを埋め込む。
5つのベンチマークデータセットによる実験結果から,提案手法は後処理を一切行わず,23の最先端手法に対して良好に動作することが示された。
論文 参考訳(メタデータ) (2020-07-17T15:41:37Z) - DFNet: Discriminative feature extraction and integration network for
salient object detection [6.959742268104327]
畳み込みニューラルネットワークを用いた唾液度検出における課題の2つの側面に焦点をあてる。
第一に、様々な大きさに有能な物体が現れるため、単一スケールの畳み込みは適切な大きさを捉えない。
第二に、マルチレベル機能の使用は、モデルがローカルコンテキストとグローバルコンテキストの両方を使用するのに役立つ。
論文 参考訳(メタデータ) (2020-04-03T13:56:41Z) - Crowd Counting via Hierarchical Scale Recalibration Network [61.09833400167511]
本稿では,群集カウントの課題に取り組むために,階層型大規模校正ネットワーク(HSRNet)を提案する。
HSRNetは、リッチなコンテキスト依存をモデル化し、複数のスケール関連情報を再検討する。
提案手法は,様々なノイズを選択的に無視し,適切な群集スケールに自動的に焦点を合わせることができる。
論文 参考訳(メタデータ) (2020-03-07T10:06:47Z) - Global Context-Aware Progressive Aggregation Network for Salient Object
Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。
提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-02T04:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。