論文の概要: A Novel Two Stream Decision Level Fusion of Vision and Inertial Sensors
Data for Automatic Multimodal Human Activity Recognition System
- arxiv url: http://arxiv.org/abs/2306.15765v1
- Date: Tue, 27 Jun 2023 19:29:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 16:43:36.102985
- Title: A Novel Two Stream Decision Level Fusion of Vision and Inertial Sensors
Data for Automatic Multimodal Human Activity Recognition System
- Title(参考訳): 自動マルチモーダル人間行動認識システムのための2つの流れ決定レベルの視覚と慣性センサデータの融合
- Authors: Santosh Kumar Yadav, Muhtashim Rafiqi, Egna Praneeth Gummana, Kamlesh
Tiwari, Hari Mohan Pandey, Shaik Ali Akbara
- Abstract要約: 本稿では,新しいマルチモーダルな人間活動認識システムを提案する。
視覚と慣性センサーを2ストリームの意思決定レベルで融合させる。
提案法で得られた収差は96.9%、97.6%、98.7%、95.9%である。
- 参考スコア(独自算出の注目度): 2.5214116139219787
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper presents a novel multimodal human activity recognition system. It
uses a two-stream decision level fusion of vision and inertial sensors. In the
first stream, raw RGB frames are passed to a part affinity field-based pose
estimation network to detect the keypoints of the user. These keypoints are
then pre-processed and inputted in a sliding window fashion to a specially
designed convolutional neural network for the spatial feature extraction
followed by regularized LSTMs to calculate the temporal features. The outputs
of LSTM networks are then inputted to fully connected layers for
classification. In the second stream, data obtained from inertial sensors are
pre-processed and inputted to regularized LSTMs for the feature extraction
followed by fully connected layers for the classification. At this stage, the
SoftMax scores of two streams are then fused using the decision level fusion
which gives the final prediction. Extensive experiments are conducted to
evaluate the performance. Four multimodal standard benchmark datasets (UP-Fall
detection, UTD-MHAD, Berkeley-MHAD, and C-MHAD) are used for experimentations.
The accuracies obtained by the proposed system are 96.9 %, 97.6 %, 98.7 %, and
95.9 % respectively on the UP-Fall Detection, UTDMHAD, Berkeley-MHAD, and
C-MHAD datasets. These results are far superior than the current
state-of-the-art methods.
- Abstract(参考訳): 本稿では,新しいマルチモーダル人間活動認識システムを提案する。
視覚と慣性センサーの2つのストリーム決定レベルの融合を用いる。
第1ストリームでは、生のRGBフレームを部分親和性フィールドベースのポーズ推定ネットワークに渡してユーザのキーポイントを検出する。
これらのキーポイントは、空間的特徴抽出のために特別に設計された畳み込みニューラルネットワークに予め処理され、時間的特徴を計算するための正規化されたLSTMが続く。
LSTMネットワークの出力は、分類のために完全に接続された層に入力される。
第2のストリームでは、慣性センサから得られたデータを前処理し、特徴抽出のための正規化lstmに入力し、さらに分類のための完全連結層に入力する。
この段階で、2つのストリームのSoftMaxスコアは、最終的な予測を与える決定レベル融合を用いて融合される。
性能評価のために広範な実験が行われている。
実験には、4つのマルチモーダル標準ベンチマークデータセット(UP-Fall Detection、UTD-MHAD、Berkeley-MHAD、C-MHAD)が使用される。
本システムにより得られた精度は,アップフォール検出,utdmhad,berkeley-mhad,c-mhadデータセットそれぞれ96.9 %,97.6 %,98.7 %,95.9 %である。
これらの結果は現在の最先端手法よりもはるかに優れている。
関連論文リスト
- Domain Adaptive Synapse Detection with Weak Point Annotations [63.97144211520869]
弱点アノテーションを用いたドメイン適応型シナプス検出のためのフレームワークであるAdaSynを提案する。
I SBI 2023のWASPSYNチャレンジでは、我々の手法が第1位にランクインした。
論文 参考訳(メタデータ) (2023-08-31T05:05:53Z) - A Novel Approach For Analysis of Distributed Acoustic Sensing System
Based on Deep Transfer Learning [0.0]
畳み込みニューラルネットワークは、空間情報を抽出するための非常に有能なツールである。
LSTM(Long-Short term memory)は、シーケンシャルデータを処理するための有効な機器である。
我々のフレームワークのVGG-16アーキテクチャは、50のトレーニングで100%の分類精度が得られる。
論文 参考訳(メタデータ) (2022-06-24T19:56:01Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Multiple Time Series Fusion Based on LSTM An Application to CAP A Phase
Classification Using EEG [56.155331323304]
本研究では,深層学習に基づく脳波チャンネルの特徴レベル融合を行う。
チャネル選択,融合,分類手順を2つの最適化アルゴリズムで最適化した。
論文 参考訳(メタデータ) (2021-12-18T14:17:49Z) - MD-CSDNetwork: Multi-Domain Cross Stitched Network for Deepfake
Detection [80.83725644958633]
現在のディープフェイク生成法では、偽画像やビデオの周波数スペクトルに識別的アーティファクトが残されている。
MD-CSDNetwork(MD-CSDNetwork)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T14:11:53Z) - CPFN: Cascaded Primitive Fitting Networks for High-Resolution Point
Clouds [51.47100091540298]
本稿では,グローバルおよびローカルなプリミティブ検出ネットワークの検出結果をアダプティブパッチサンプリングネットワークに依存したCPFN(Cascaded Primitive Fitting Networks)を提案する。
CPFNは、高解像度のポイントクラウドデータセット上で、最先端のSPFNのパフォーマンスを13-14%改善し、特に20-22%の微細プリミティブの検出を改善している。
論文 参考訳(メタデータ) (2021-08-31T23:27:33Z) - GEM: Glare or Gloom, I Can Still See You -- End-to-End Multimodal Object
Detector [11.161639542268015]
厳しい照明条件下での2次元物体検出のためのセンサ対応マルチモーダル融合戦略を提案する。
本ネットワークは,各センサモダリティの測定信頼性をスカラーウェイトとマスクの形で推定する。
提案手法はFLIR-Thermalデータセット上で既存の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-02-24T14:56:37Z) - Dermo-DOCTOR: A web application for detection and recognition of the
skin lesion using a deep convolutional neural network [3.7242808753092502]
本稿では,Dermo-DOCTORという皮膚病変の同時検出と認識のための,エンドツーエンドの深層CNNベースのマルチタスクWebアプリケーションを提案する。
検出サブネットワークでは、Fused Feature Map (FFM) がデコードに使われ、出力された病変マスクの入力解像度を得る。
認識サブネットワークでは、2つのエンコーダとFFMの特徴マップをアグリゲーションに使用して最終病変クラスを得る。
論文 参考訳(メタデータ) (2021-02-03T01:14:52Z) - Towards Improved Human Action Recognition Using Convolutional Neural
Networks and Multimodal Fusion of Depth and Inertial Sensor Data [1.52292571922932]
本稿では,深度と慣性センサデータの融合によるヒューマンアクション認識(HAR)の精度向上を試みる。
我々は、深度データを逐次フロントビューイメージ(SFI)に変換し、これらの画像上でトレーニング済みのAlexNetを微調整する。
慣性データを信号画像(SI)に変換し、これらの画像上で別の畳み込みニューラルネットワーク(CNN)を訓練する。
論文 参考訳(メタデータ) (2020-08-22T03:41:34Z) - Single-stage intake gesture detection using CTC loss and extended prefix
beam search [8.22379888383833]
個々の摂取行動の正確な検出は、自動食事監視への重要なステップである。
本稿では,センサデータから得られた確率を直接,スパース摂取検出にデコードする単一ステージアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-07T06:04:25Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。