論文の概要: Pervasive Hand Gesture Recognition for Smartphones using Non-audible
Sound and Deep Learning
- arxiv url: http://arxiv.org/abs/2108.02148v1
- Date: Wed, 4 Aug 2021 16:23:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-05 14:44:04.289230
- Title: Pervasive Hand Gesture Recognition for Smartphones using Non-audible
Sound and Deep Learning
- Title(参考訳): 非可聴音と深層学習を用いたスマートフォンの広帯域手指認識
- Authors: Ahmed Ibrahim, Ayman El-Refai, Sara Ahmed, Mariam Aboul-Ela, Hesham M.
Eraqi, Mohamed Moustafa
- Abstract要約: 本稿では,スマートフォン内蔵スピーカーとマイクを用いた手動ジェスチャー認識手法を提案する。
提案システムは、スマートフォンのステレオスピーカーから超音波ソナー信号(可聴音)を出力し、スマートフォンのマイクから受信し、ハンドジェスチャ認識のための畳み込みニューラルネットワーク(CNN)を介して処理する。
- 参考スコア(独自算出の注目度): 1.529170372164118
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to the mass advancement in ubiquitous technologies nowadays, new
pervasive methods have come into the practice to provide new innovative
features and stimulate the research on new human-computer interactions. This
paper presents a hand gesture recognition method that utilizes the smartphone's
built-in speakers and microphones. The proposed system emits an ultrasonic
sonar-based signal (inaudible sound) from the smartphone's stereo speakers,
which is then received by the smartphone's microphone and processed via a
Convolutional Neural Network (CNN) for Hand Gesture Recognition. Data
augmentation techniques are proposed to improve the detection accuracy and
three dual-channel input fusion methods are compared. The first method merges
the dual-channel audio as a single input spectrogram image. The second method
adopts early fusion by concatenating the dual-channel spectrograms. The third
method adopts late fusion by having two convectional input branches processing
each of the dual-channel spectrograms and then the outputs are merged by the
last layers. Our experimental results demonstrate a promising detection
accuracy for the six gestures presented in our publicly available dataset with
an accuracy of 93.58\% as a baseline.
- Abstract(参考訳): 近年のユビキタス技術の急速な発展により、新しい革新的な機能を提供し、新しい人間とコンピュータの相互作用の研究を刺激する新しい普及手法が実践されている。
本稿では,スマートフォン内蔵スピーカーとマイクを用いた手動ジェスチャー認識手法を提案する。
提案システムは、スマートフォンのステレオスピーカーから超音波ソナー信号(可聴音)を出力し、スマートフォンのマイクから受信し、ハンドジェスチャ認識のための畳み込みニューラルネットワーク(CNN)を介して処理する。
検出精度を向上させるためにデータ拡張法を提案し、3つのデュアルチャネル入力融合法を比較した。
第1の方法は、デュアルチャネルオーディオを単一入力スペクトログラム画像としてマージする。
第2の方法は、二重チャネル分光器を結合することで早期融合を採用する。
第3の方法は、2つの対流入力枝を2つの二重チャネルスペクトログラムごとに処理し、出力を最終層にマージすることで遅延融合を採用する。
実験結果は,公開データセットに提示された6つのジェスチャーに対して,ベースラインとして93.58\%の精度で有望な検出精度を示す。
関連論文リスト
- MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake
Detection [50.33525966541906]
既存のマルチモーダル検出手法は、Deepfakeビデオを公開するために、音声と視覚の不整合をキャプチャする。
NPVForensics と呼ばれる非臨界音素とビセムの相関関係を抽出する新しいディープフェイク検出法を提案する。
我々のモデルは、微調整で下流のDeepfakeデータセットに容易に適応できる。
論文 参考訳(メタデータ) (2023-06-12T06:06:05Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Multi-Channel End-to-End Neural Diarization with Distributed Microphones [53.99406868339701]
EENDのTransformerエンコーダを,マルチチャネル入力を処理する2種類のエンコーダに置き換える。
また,単一チャンネル記録のみを用いたモデル適応手法を提案する。
論文 参考訳(メタデータ) (2021-10-10T03:24:03Z) - Learning to Rank Microphones for Distant Speech Recognition [16.47293353050145]
経験的証拠は、最高のマイクを選択できることが認識の大幅な改善につながることを示している。
現在のチャネル選択技術は、信号、デコーダ、または後部ベースの機能に依存します。
ニューラルネットワークをトレーニングして利用可能なチャネルをランク付けする学習用フレームワークであるMicRankを提案する。
論文 参考訳(メタデータ) (2021-04-06T22:39:30Z) - Generalizing Face Forgery Detection with High-frequency Features [63.33397573649408]
現在のCNNベースの検出器は、メソッド固有の色テクスチャに過度に適合するため、一般化に失敗する傾向にある。
フェースフォージェリ検出に高周波雑音を用いることを提案する。
1つは、複数のスケールで高周波ノイズを抽出するマルチスケールの高周波特徴抽出モジュールである。
2つ目は、低レベルRGB特徴抽出器を導く残差誘導空間注意モジュールで、新しい視点からフォージェリートレースにもっと集中する。
論文 参考訳(メタデータ) (2021-03-23T08:19:21Z) - DeepMSRF: A novel Deep Multimodal Speaker Recognition framework with
Feature selection [2.495606047371841]
特徴選択を用いたディープマルチモーダル話者認識法であるディープMSRFを提案する。
我々は2つのモードの特徴、すなわち話者の音声と顔画像の供給によってDeepMSRFを実行する。
DeepMSRFの目標は、まず話者の性別を特定し、さらに特定のビデオストリームに対して氏の名前を認識することである。
論文 参考訳(メタデータ) (2020-07-14T04:28:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。