論文の概要: Towards Improved Human Action Recognition Using Convolutional Neural
Networks and Multimodal Fusion of Depth and Inertial Sensor Data
- arxiv url: http://arxiv.org/abs/2008.09747v1
- Date: Sat, 22 Aug 2020 03:41:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 07:37:24.686740
- Title: Towards Improved Human Action Recognition Using Convolutional Neural
Networks and Multimodal Fusion of Depth and Inertial Sensor Data
- Title(参考訳): 畳み込みニューラルネットワークと深度・慣性センサデータのマルチモーダル融合による人間行動認識の改善に向けて
- Authors: Zeeshan Ahmad and Naimul Khan
- Abstract要約: 本稿では,深度と慣性センサデータの融合によるヒューマンアクション認識(HAR)の精度向上を試みる。
我々は、深度データを逐次フロントビューイメージ(SFI)に変換し、これらの画像上でトレーニング済みのAlexNetを微調整する。
慣性データを信号画像(SI)に変換し、これらの画像上で別の畳み込みニューラルネットワーク(CNN)を訓練する。
- 参考スコア(独自算出の注目度): 1.52292571922932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper attempts at improving the accuracy of Human Action Recognition
(HAR) by fusion of depth and inertial sensor data. Firstly, we transform the
depth data into Sequential Front view Images(SFI) and fine-tune the pre-trained
AlexNet on these images. Then, inertial data is converted into Signal Images
(SI) and another convolutional neural network (CNN) is trained on these images.
Finally, learned features are extracted from both CNN, fused together to make a
shared feature layer, and these features are fed to the classifier. We
experiment with two classifiers, namely Support Vector Machines (SVM) and
softmax classifier and compare their performances. The recognition accuracies
of each modality, depth data alone and sensor data alone are also calculated
and compared with fusion based accuracies to highlight the fact that fusion of
modalities yields better results than individual modalities. Experimental
results on UTD-MHAD and Kinect 2D datasets show that proposed method achieves
state of the art results when compared to other recently proposed
visual-inertial action recognition methods.
- Abstract(参考訳): 本稿では,深度と慣性センサデータの融合によるヒューマンアクション認識(HAR)の精度向上を試みる。
まず、深度データをSequential Front View Images(SFI)に変換し、これらの画像上でトレーニング済みのAlexNetを微調整する。
そして、慣性データを信号画像(si)に変換し、これら画像に対して別の畳み込みニューラルネットワーク(cnn)を訓練する。
最後に、学習した特徴をCNNから抽出し、融合して共有機能層を作り、これらの特徴を分類器に供給する。
そこで我々は,SVM(Support Vector Machines)とSoftmaxの2つの分類器を実験し,それらの性能を比較した。
また、各モーダル、深度データ、センサデータのみの認識精度を算出し、融合に基づく精度と比較し、モーダルの融合が個々のモーダルよりも良い結果をもたらすという事実を強調する。
UTD-MHADとKinect 2Dデータセットの実験結果から,最近提案された他の視覚慣性行動認識法と比較して,提案手法が技術結果の状態を達成できることが示されている。
関連論文リスト
- Research on Image Recognition Technology Based on Multimodal Deep Learning [24.259653149898167]
本稿では,ディープニューラルネットワークを用いた人間のマルチモーダル行動識別アルゴリズムについて検討する。
MSR3Dデータセットを用いて提案アルゴリズムの性能評価を行った。
論文 参考訳(メタデータ) (2024-05-06T01:05:21Z) - Rethinking Transformers Pre-training for Multi-Spectral Satellite
Imagery [78.43828998065071]
教師なし学習の最近の進歩は、下流タスクにおける有望な結果を達成するための大きな視覚モデルの可能性を示している。
このような事前学習技術は、大量の未学習データが利用可能であることから、リモートセンシング領域でも最近研究されている。
本稿では,マルチモーダルで効果的に活用されるマルチスケール情報の事前学習と活用について述べる。
論文 参考訳(メタデータ) (2024-03-08T16:18:04Z) - Assessing Neural Network Representations During Training Using
Noise-Resilient Diffusion Spectral Entropy [55.014926694758195]
ニューラルネットワークにおけるエントロピーと相互情報は、学習プロセスに関する豊富な情報を提供する。
データ幾何を利用して基礎となる多様体にアクセスし、これらの情報理論測度を確実に計算する。
本研究は,高次元シミュレーションデータにおける固有次元と関係強度の耐雑音性の測定結果である。
論文 参考訳(メタデータ) (2023-12-04T01:32:42Z) - HighlightMe: Detecting Highlights from Human-Centric Videos [52.84233165201391]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。
本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。
我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4~12%向上したことを観察した。
論文 参考訳(メタデータ) (2021-10-05T01:18:15Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Inertial Sensor Data To Image Encoding For Human Action Recognition [0.0]
畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンの分野で成功したディープラーニングモデルである。
本稿では,慣性センサデータから活動画像への変換に4種類の空間領域法を用いる。
マルチモーダル・フュージョン・フレームワークを構築するために,2つの空間領域フィルタを結合して各種類のアクティビティ・イメージをマルチモーダル化した。
論文 参考訳(メタデータ) (2021-05-28T01:22:52Z) - ScalingNet: extracting features from raw EEG data for emotion
recognition [4.047737925426405]
生の脳波信号から効果的なデータ駆動スペクトログラムのような特徴を適応的に抽出できる新しい畳み込み層を提案する。
スケーリング層に基づくニューラルネットワークアーキテクチャであるScalingNetは、確立されたDEAPベンチマークデータセット全体で最先端の結果を達成した。
論文 参考訳(メタデータ) (2021-02-07T08:54:27Z) - A Novel Multi-Stage Training Approach for Human Activity Recognition
from Multimodal Wearable Sensor Data Using Deep Neural Network [11.946078871080836]
ディープニューラルネットワークは、さまざまなウェアラブルセンサーのデータを利用して人間の行動を自動的に認識する効果的な選択である。
本論文では,この特徴抽出プロセスにおける多様性を高める,新たなマルチステージトレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-01-03T20:48:56Z) - CNN based Multistage Gated Average Fusion (MGAF) for Human Action
Recognition Using Depth and Inertial Sensors [1.52292571922932]
畳み込みニューラルネットワーク(CNN)は、アーキテクチャのすべてのレイヤから機能を抽出し、融合するためのレバレッジを提供する。
我々は,CNNの全層から特徴を抽出し,融合する多段Gated Average Fusion (MGAF) ネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-29T11:49:13Z) - Semantics-aware Adaptive Knowledge Distillation for Sensor-to-Vision
Action Recognition [131.6328804788164]
本稿では,視覚・センサ・モダリティ(動画)における行動認識を強化するためのフレームワーク,Semantics-Aware Adaptive Knowledge Distillation Networks (SAKDN)を提案する。
SAKDNは複数のウェアラブルセンサーを教師のモダリティとして使用し、RGB動画を学生のモダリティとして使用している。
論文 参考訳(メタデータ) (2020-09-01T03:38:31Z) - Towards Reading Beyond Faces for Sparsity-Aware 4D Affect Recognition [55.15661254072032]
自動4次元表情認識(FER)のための空間認識深層ネットワークを提案する。
まず,深層学習のためのデータ制限問題に対処する新しい拡張手法を提案する。
次に、多視点での畳み込み特徴のスパース表現を計算するために、疎度対応のディープネットワークを提案する。
論文 参考訳(メタデータ) (2020-02-08T13:09:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。