論文の概要: Heatmap Pooling Network for Action Recognition from RGB Videos
- arxiv url: http://arxiv.org/abs/2512.03837v1
- Date: Wed, 03 Dec 2025 14:36:59 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:02:58.39259
- Title: Heatmap Pooling Network for Action Recognition from RGB Videos
- Title(参考訳): RGB映像からの行動認識のためのヒートマップポーリングネットワーク
- Authors: Mengyuan Liu, Jinfu Liu, Yongkang Jiang, Bin He,
- Abstract要約: RGBビデオから深い特徴を抽出する既存の方法は、情報冗長性、ノイズへの感受性、高ストレージコストといった課題に直面している。
本稿では,映像からの行動認識のための新しいヒートマッププーリングネットワーク(HP-Net)を提案する。
- 参考スコア(独自算出の注目度): 35.521306424947724
- License:
- Abstract: Human action recognition (HAR) in videos has garnered widespread attention due to the rich information in RGB videos. Nevertheless, existing methods for extracting deep features from RGB videos face challenges such as information redundancy, susceptibility to noise and high storage costs. To address these issues and fully harness the useful information in videos, we propose a novel heatmap pooling network (HP-Net) for action recognition from videos, which extracts information-rich, robust and concise pooled features of the human body in videos through a feedback pooling module. The extracted pooled features demonstrate obvious performance advantages over the previously obtained pose data and heatmap features from videos. In addition, we design a spatial-motion co-learning module and a text refinement modulation module to integrate the extracted pooled features with other multimodal data, enabling more robust action recognition. Extensive experiments on several benchmarks namely NTU RGB+D 60, NTU RGB+D 120, Toyota-Smarthome and UAV-Human consistently verify the effectiveness of our HP-Net, which outperforms the existing human action recognition methods. Our code is publicly available at: https://github.com/liujf69/HPNet-Action.
- Abstract(参考訳): ビデオにおけるヒューマンアクション認識(HAR)は、RGBビデオの豊富な情報のために広く注目を集めている。
それでも、RGBビデオから深い特徴を抽出する既存の方法は、情報冗長性、ノイズへの感受性、高ストレージコストといった課題に直面している。
これらの問題に対処し、ビデオに有用な情報をフル活用するために、フィードバック・プール・モジュールを通じて人体の情報豊かで頑健で簡潔な特徴をビデオ内に抽出するビデオから行動認識のための新しいヒートマップ・プール・ネットワーク(HP-Net)を提案する。
抽出したプールされた機能は、以前取得したポーズデータやビデオのヒートマップ機能よりも明らかにパフォーマンス上の利点を示している。
さらに,抽出した特徴を他のマルチモーダルデータと統合し,より堅牢な動作認識を実現するために,空間移動協調学習モジュールとテキスト修正変調モジュールを設計する。
NTU RGB+D 60,NTU RGB+D 120,Toyota-Smarthome,UAV-Humanといったベンチマークの大規模な実験はHP-Netの有効性を一貫して検証している。
私たちのコードは、https://github.com/liujf69/HPNet-Action.comで公開されています。
関連論文リスト
- Human Activity Recognition using RGB-Event based Sensors: A Multi-modal Heat Conduction Model and A Benchmark Dataset [65.76480665062363]
人間の活動認識は主に、高性能な活動認識を実現するために従来のRGBカメラに依存していた。
照明不足や急激な動きといった現実のシナリオにおける課題は、必然的にRGBカメラの性能を低下させる。
本研究では,RGBとイベントカメラを組み合わせることで,人間の活動認識を再考する。
論文 参考訳(メタデータ) (2025-04-08T09:14:24Z) - SEDS: Semantically Enhanced Dual-Stream Encoder for Sign Language Retrieval [82.51117533271517]
以前はRGBビデオをエンコードするだけで高レベルのセマンティックな特徴が得られていた。
既存のRGBベースの手話検索作業は、エンドツーエンドのトレーニングに埋め込まれた濃密な視覚データによる膨大なメモリコストに悩まされる。
本稿では,Semantically Enhanced Dual-Streamという手話表現フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-23T11:31:11Z) - ViDSOD-100: A New Dataset and a Baseline Model for RGB-D Video Salient Object Detection [51.16181295385818]
まず、注釈付きRGB-D video SODOD(DSOD-100)データセットを収集し、合計9,362フレーム内に100の動画を含む。
各ビデオのフレームはすべて、高品質なサリエンシアノテーションに手動で注釈付けされる。
本稿では,RGB-Dサリアンオブジェクト検出のための新しいベースラインモデル,attentive triple-fusion network (ATF-Net)を提案する。
論文 参考訳(メタデータ) (2024-06-18T12:09:43Z) - Adversarial Memory Networks for Action Prediction [95.09968654228372]
アクション予測は、今後の人間の行動を部分的に観察されたビデオで推測することを目的としている。
本稿では,ある部分的ビデオクエリに"フルビデオ"機能コンディショニングを生成するために,AMemNet(Adversarial memory network)を提案する。
論文 参考訳(メタデータ) (2021-12-18T08:16:21Z) - Specificity-preserving RGB-D Saliency Detection [103.3722116992476]
本稿では,RGB-Dサリエンシ検出のための特異性保存ネットワーク(SP-Net)を提案する。
2つのモダリティ特化ネットワークと共有学習ネットワークを採用し、個別および共有唾液マップを生成する。
6つのベンチマークデータセットの実験では、SP-Netは他の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-08-18T14:14:22Z) - Infrared and 3D skeleton feature fusion for RGB-D action recognition [0.30458514384586394]
本稿では,スケルトンと赤外線データを組み合わせたモジュールネットワークを提案する。
2D畳み込みネットワーク(CNN)は、骨格データから特徴を抽出するポーズモジュールとして使用される。
3D CNNは、ビデオから視覚的手がかりを抽出する赤外線モジュールとして使用される。
論文 参考訳(メタデータ) (2020-02-28T17:42:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。