論文の概要: Gimme Signals: Discriminative signal encoding for multimodal activity
recognition
- arxiv url: http://arxiv.org/abs/2003.06156v2
- Date: Thu, 9 Apr 2020 13:10:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 02:06:36.083809
- Title: Gimme Signals: Discriminative signal encoding for multimodal activity
recognition
- Title(参考訳): Gimme Signals:マルチモーダルアクティビティ認識のための識別信号符号化
- Authors: Raphael Memmesheimer, Nick Theisen, Dietrich Paulus
- Abstract要約: 複数のセンサのモーダル性をサポートする簡易かつ効果的かつ柔軟な動作認識法を提案する。
本手法は, 骨格配列, 慣性およびモーションキャプチャ計測, および最大120種類の動作クラスを含む4つの動作認識データセットに適用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a simple, yet effective and flexible method for action recognition
supporting multiple sensor modalities. Multivariate signal sequences are
encoded in an image and are then classified using a recently proposed
EfficientNet CNN architecture. Our focus was to find an approach that
generalizes well across different sensor modalities without specific adaptions
while still achieving good results. We apply our method to 4 action recognition
datasets containing skeleton sequences, inertial and motion capturing
measurements as well as \wifi fingerprints that range up to 120 action classes.
Our method defines the current best CNN-based approach on the NTU RGB+D 120
dataset, lifts the state of the art on the ARIL Wi-Fi dataset by +6.78%,
improves the UTD-MHAD inertial baseline by +14.4%, the UTD-MHAD skeleton
baseline by 1.13% and achieves 96.11% on the Simitate motion capturing data
(80/20 split). We further demonstrate experiments on both, modality fusion on a
signal level and signal reduction to prevent the representation from
overloading.
- Abstract(参考訳): 複数のセンサのモーダル性をサポートする簡易かつ効果的かつ柔軟な動作認識法を提案する。
多変量信号シーケンスは画像にエンコードされ、最近提案された efficientnet cnn アーキテクチャで分類される。
我々の焦点は、特定の適応を伴わずに様々なセンサーモードをうまく一般化し、良好な結果が得られるアプローチを見つけることであった。
提案手法は,スケルトンシーケンス,慣性およびモーションキャプチャの測定値を含む4つのアクション認識データセットと,最大120のアクションクラスを含む \wifiフィンガープリントに適用する。
NTU RGB+D 120データセットにおける現在の最高のCNNベースのアプローチを定義し、ARIL Wi-Fiデータセット上のアートの状態を+6.78%引き上げ、UTD-MHAD慣性ベースラインを+14.4%改善し、UTD-MHAD骨格ベースラインを1.13%改善し、シミテートモーションキャプチャデータ(80/20分割)で96.11%を達成する。
さらに,信号レベルでのモダリティ融合と信号の低減を両立させて,表現の過負荷を防止する実験を行った。
関連論文リスト
- EPAM-Net: An Efficient Pose-driven Attention-guided Multimodal Network for Video Action Recognition [0.0]
本稿では,ビデオにおける行動認識のための効果的なポーズ駆動型注意誘導型マルチモーダル行動認識(EPAM-Net)を提案する。
具体的には、RGBビデオとそのスケルトンシーケンスから、ポーズストリームとネットワーク時間特徴の両方にX3Dネットワークを適用した。
我々のモデルはFLOPの6.2-9.9-x削減(浮動小数点演算、乗算加算数)とネットワークパラメータの9-9.6倍削減を提供する。
論文 参考訳(メタデータ) (2024-08-10T03:15:24Z) - DGSD: Dynamical Graph Self-Distillation for EEG-Based Auditory Spatial
Attention Detection [49.196182908826565]
AAD(Auditory Attention Detection)は、マルチスピーカー環境で脳信号からターゲット話者を検出することを目的としている。
現在のアプローチは主に、画像のようなユークリッドデータを処理するために設計された従来の畳み込みニューラルネットワークに依存している。
本稿では、入力として音声刺激を必要としないAADのための動的グラフ自己蒸留(DGSD)手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T13:43:46Z) - Improved Static Hand Gesture Classification on Deep Convolutional Neural
Networks using Novel Sterile Training Technique [2.534406146337704]
非接触手ポーズと静的ジェスチャー認識は多くのアプリケーションで注目されている。
本稿では, ステレオ画像の導入により, 効率的なデータ収集手法と深部CNN訓練手法を提案する。
提案されたデータ収集とトレーニング手法を適用すると、静的ハンドジェスチャの分類率が85%から93%に向上する。
論文 参考訳(メタデータ) (2023-05-03T11:10:50Z) - PMI Sampler: Patch Similarity Guided Frame Selection for Aerial Action
Recognition [52.78234467516168]
本稿では、隣接フレーム間の動きバイアスを定量化するために、パッチ相互情報(PMI)スコアの概念を導入する。
シフトリークReLuと累積分布関数を用いた適応フレーム選択方式を提案する。
本手法は,UAV-Humanの2.2~13.8%,NEC Droneの6.8%,Diving48データセットの9.0%の相対的な改善を実現している。
論文 参考訳(メタデータ) (2023-04-14T00:01:11Z) - Differentiable Frequency-based Disentanglement for Aerial Video Action
Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。
我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。
我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-09-15T22:16:52Z) - A Novel Approach For Analysis of Distributed Acoustic Sensing System
Based on Deep Transfer Learning [0.0]
畳み込みニューラルネットワークは、空間情報を抽出するための非常に有能なツールである。
LSTM(Long-Short term memory)は、シーケンシャルデータを処理するための有効な機器である。
我々のフレームワークのVGG-16アーキテクチャは、50のトレーニングで100%の分類精度が得られる。
論文 参考訳(メタデータ) (2022-06-24T19:56:01Z) - Meta-Learning Sparse Implicit Neural Representations [69.15490627853629]
入射神経表現は、一般的な信号を表す新しい道である。
現在のアプローチは、多数の信号やデータセットに対してスケールすることが難しい。
メタ学習型スパースニューラル表現は,高密度メタ学習モデルよりもはるかに少ない損失が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T18:02:53Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z) - SL-DML: Signal Level Deep Metric Learning for Multimodal One-Shot Action
Recognition [0.0]
埋め込み空間における近接探索に対する行動認識問題を削減するための計量学習手法を提案する。
我々は信号を画像にエンコードし、深い残差CNNを用いて特徴を抽出する。
結果として得られるエンコーダは特徴を埋め込み空間に変換し、より近い距離は類似の動作を符号化し、高い距離は異なる動作を符号化する。
論文 参考訳(メタデータ) (2020-04-23T11:28:27Z) - Attentive CutMix: An Enhanced Data Augmentation Approach for Deep
Learning Based Image Classification [58.20132466198622]
そこで我々は,CutMixに基づく自然拡張拡張戦略であるAttentive CutMixを提案する。
各トレーニングイテレーションにおいて、特徴抽出器から中間注意マップに基づいて最も記述性の高い領域を選択する。
提案手法は単純かつ有効であり,実装が容易であり,ベースラインを大幅に向上させることができる。
論文 参考訳(メタデータ) (2020-03-29T15:01:05Z) - Multimodal Affective States Recognition Based on Multiscale CNNs and
Biologically Inspired Decision Fusion Model [9.006757372508366]
マルチモーダルな生理的信号に基づく感情状態認識法はまだ十分に活用されていない。
本稿では,マルチスケール畳み込みニューラルネットワーク(Multiscale CNN)と,感情状態認識のための生物学的にインスパイアされた決定融合モデルを提案する。
その結果, 融合モデルでは, 単一モダリティ信号と比較すると, 感情状態認識の精度が有意に向上することがわかった。
論文 参考訳(メタデータ) (2019-11-29T01:35:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。