論文の概要: Human Action Recognition Based on Multi-scale Feature Maps from Depth
Video Sequences
- arxiv url: http://arxiv.org/abs/2101.07618v1
- Date: Tue, 19 Jan 2021 13:46:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 11:13:51.221300
- Title: Human Action Recognition Based on Multi-scale Feature Maps from Depth
Video Sequences
- Title(参考訳): 深度映像からのマルチスケール特徴マップに基づく人間の行動認識
- Authors: Chang Li and Qian Huang and Xing Li and Qianhan Wu
- Abstract要約: 深度ビデオシーケンスから人間の行動を認識するために,マルチスケールなモーション情報に着目した新しいフレームワークを提案する。
動作のマルチスケールな静的表現を生成するために,テンプレートとして深度動き画像(DMI)を用いる。
LP-DMI-HOGと呼ばれる多粒性記述子を抽出し、より識別的な特徴を提供する。
- 参考スコア(独自算出の注目度): 12.30399970340689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human action recognition is an active research area in computer vision.
Although great process has been made, previous methods mostly recognize actions
based on depth data at only one scale, and thus they often neglect multi-scale
features that provide additional information action recognition in practical
application scenarios. In this paper, we present a novel framework focusing on
multi-scale motion information to recognize human actions from depth video
sequences. We propose a multi-scale feature map called Laplacian pyramid depth
motion images(LP-DMI). We employ depth motion images (DMI) as the templates to
generate the multi-scale static representation of actions. Then, we caculate
LP-DMI to enhance multi-scale dynamic information of motions and reduces
redundant static information in human bodies. We further extract the
multi-granularity descriptor called LP-DMI-HOG to provide more discriminative
features. Finally, we utilize extreme learning machine (ELM) for action
classification. The proposed method yeilds the recognition accuracy of 93.41%,
85.12%, 91.94% on public MSRAction3D dataset, UTD-MHAD and DHA dataset. Through
extensive experiments, we prove that our method outperforms state-of-the-art
benchmarks.
- Abstract(参考訳): 人間の行動認識はコンピュータビジョンの活発な研究領域である。
優れたプロセスが作成されているが、従来の手法は、主に1つのスケールで深度データに基づくアクションを認識するため、実用的なアプリケーションシナリオで追加の情報アクション認識を提供するマルチスケールの特徴を無視することが多い。
本稿では,深部映像列から人間の行動を認識するマルチスケール動作情報に着目した新しい枠組みを提案する。
本稿では,ラプラシアピラミッド深部運動画像(lp-dmi)と呼ばれる多次元特徴マップを提案する。
動作のマルチスケールな静的表現を生成するテンプレートとして,深度運動画像(DMI)を用いる。
次に,lp-dmiを組み込んで動作の多スケール動的情報を強化し,人体の冗長な静的情報を削減する。
さらに,lp-dmi-hog と呼ばれるマルチグラニュラ性記述子を抽出し,より識別的特徴を与える。
最後に,行動分類にextreme learning machine(elm)を用いる。
提案手法は、パブリックMSRAction3Dデータセット、UTD-MHADおよびDHAデータセットの認識精度を93.41%、85.12%、91.94%向上させる。
実験により,本手法が最先端のベンチマークより優れていることを示す。
関連論文リスト
- MSSPlace: Multi-Sensor Place Recognition with Visual and Text Semantics [41.94295877935867]
マルチカメラのセットアップを活用し,マルチモーダル位置認識のための多様なデータソースを統合することの影響について検討する。
提案手法は,複数のカメラ,LiDAR点雲,セマンティックセグメンテーションマスク,テキストアノテーションなどの画像を用いて,総合的な位置記述子を生成する。
論文 参考訳(メタデータ) (2024-07-22T14:24:56Z) - Joint Depth Prediction and Semantic Segmentation with Multi-View SAM [59.99496827912684]
我々は,Segment Anything Model(SAM)のリッチなセマンティック特徴を利用した深度予測のためのマルチビューステレオ(MVS)手法を提案する。
この拡張深度予測は、Transformerベースのセマンティックセグメンテーションデコーダのプロンプトとして役立ちます。
論文 参考訳(メタデータ) (2023-10-31T20:15:40Z) - MSMG-Net: Multi-scale Multi-grained Supervised Metworks for Multi-task
Image Manipulation Detection and Localization [1.14219428942199]
マルチスケール多層深層ネットワーク(MSMG-Net)を提案する。
我々のMSMG-Netでは,並列なマルチスケール特徴抽出構造を用いてマルチスケール特徴抽出を行う。
MSMG-Netはオブジェクトレベルのセマンティクスを効果的に認識し、エッジアーティファクトをエンコードする。
論文 参考訳(メタデータ) (2022-11-06T14:58:21Z) - UMSNet: An Universal Multi-sensor Network for Human Activity Recognition [10.952666953066542]
本稿では,人間行動認識のためのユニバーサルマルチセンサネットワーク(UMSNet)を提案する。
特に,新しい軽量センサ残差ブロック(LSRブロック)を提案する。
我々のフレームワークは明確な構造を持ち、様々な種類のマルチモーダル時系列分類タスクに直接適用することができる。
論文 参考訳(メタデータ) (2022-05-24T03:29:54Z) - Slow-Fast Visual Tempo Learning for Video-based Action Recognition [78.3820439082979]
アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。
以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。
単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
論文 参考訳(メタデータ) (2022-02-24T14:20:04Z) - DeepMultiCap: Performance Capture of Multiple Characters Using Sparse
Multiview Cameras [63.186486240525554]
deep multicapは、スパースマルチビューカメラを用いたマルチパーソンパフォーマンスキャプチャのための新しい手法である。
本手法では,事前走査型テンプレートモデルを用いることなく,時間変化した表面の詳細をキャプチャできる。
論文 参考訳(メタデータ) (2021-05-01T14:32:13Z) - M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection [74.19291916812921]
Deepfake技術によって生成された鍛造画像は、デジタル情報の信頼性に深刻な脅威をもたらします。
本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。
最先端の顔スワッピングと顔の再現方法によって生成された4000のDeepFakeビデオで構成される高品質のDeepFakeデータセットSR-DFを紹介します。
論文 参考訳(メタデータ) (2021-04-20T05:43:44Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。
本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T03:06:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。