論文の概要: Convolutional Neural Network Array for Sign Language Recognition using
Wearable IMUs
- arxiv url: http://arxiv.org/abs/2004.11836v1
- Date: Tue, 21 Apr 2020 23:11:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 06:28:35.938566
- Title: Convolutional Neural Network Array for Sign Language Recognition using
Wearable IMUs
- Title(参考訳): ウェアラブルIMUを用いた手話認識のための畳み込みニューラルネットワークアレイ
- Authors: Karush Suri, Rinki Gupta
- Abstract要約: 本研究は,インド手話からの記号認識のための一次元畳み込みニューラルネットワーク(CNN)アレイアーキテクチャを提案する。
IMU装置を用いて記録された信号は、一般文や疑問文の署名に対応するかどうかなどの文脈に基づいて分離される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advancements in gesture recognition algorithms have led to a significant
growth in sign language translation. By making use of efficient intelligent
models, signs can be recognized with precision. The proposed work presents a
novel one-dimensional Convolutional Neural Network (CNN) array architecture for
recognition of signs from the Indian sign language using signals recorded from
a custom designed wearable IMU device. The IMU device makes use of tri-axial
accelerometer and gyroscope. The signals recorded using the IMU device are
segregated on the basis of their context, such as whether they correspond to
signing for a general sentence or an interrogative sentence. The array
comprises of two individual CNNs, one classifying the general sentences and the
other classifying the interrogative sentence. Performances of individual CNNs
in the array architecture are compared to that of a conventional CNN
classifying the unsegregated dataset. Peak classification accuracies of 94.20%
for general sentences and 95.00% for interrogative sentences achieved with the
proposed CNN array in comparison to 93.50% for conventional CNN assert the
suitability of the proposed approach.
- Abstract(参考訳): ジェスチャー認識アルゴリズムの進歩は手話翻訳の大幅な成長をもたらした。
効率的なインテリジェントモデルを使用することで、サインを精度良く認識することができる。
提案手法は,インド手話からの信号を認識するための1次元畳み込みニューラルネットワーク(CNN)アレイアーキテクチャである。
IMU装置は3軸加速度計とジャイロスコープを使用する。
IMU装置を用いて記録された信号は、一般文や疑問文の署名に対応するかどうかなどの文脈に基づいて分離される。
配列は、2つの個別CNNからなり、1つは一般文を分類し、もう1つは疑問文を分類する。
配列アーキテクチャにおける個々のCNNの性能は、非分離データセットを分類する従来のCNNのパフォーマンスと比較される。
一般文のピーク分類精度は94.20%、従来のCNNの93.50%に比べて95.00%である。
関連論文リスト
- SECNN: Squeeze-and-Excitation Convolutional Neural Network for Sentence
Classification [0.0]
畳み込みニューラルネットワーク(CNN)は畳み込みフィルタによってn-gramの特徴を抽出する能力を持つ。
文分類のためのSqueeze-and-Excitation Convolutional Neural Network (SECNN)を提案する。
論文 参考訳(メタデータ) (2023-12-11T03:26:36Z) - Attention-based Feature Compression for CNN Inference Offloading in Edge
Computing [93.67044879636093]
本稿では,デバイスエッジ共振器におけるCNN推論の計算負荷について検討する。
エンドデバイスにおける効率的な特徴抽出のための新しいオートエンコーダベースのCNNアーキテクチャ(AECNN)を提案する。
実験の結果、AECNNは中間データを約4%の精度で256倍圧縮できることがわかった。
論文 参考訳(メタデータ) (2022-11-24T18:10:01Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - A Novel Hand Gesture Detection and Recognition system based on
ensemble-based Convolutional Neural Network [3.5665681694253903]
コンピュータビジョンとパターン認識コミュニティでは,手の部分検出が課題となっている。
畳み込みニューラルネットワーク(CNN)アーキテクチャのようなディープラーニングアルゴリズムは、分類タスクにおいて非常に一般的な選択肢となっている。
本稿では,CNNに基づくアプローチのアンサンブルを用いて,予測時の高分散や過度な問題,予測誤差などの問題を克服する。
論文 参考訳(メタデータ) (2022-02-25T06:46:58Z) - Real-time Speaker counting in a cocktail party scenario using
Attention-guided Convolutional Neural Network [60.99112031408449]
重なり合う音声におけるアクティブ話者数を推定するために,CNN(Real-time, Single-channel attention-guided Convolutional Neural Network)を提案する。
提案システムは,CNNモデルを用いて音声スペクトルから高レベル情報を抽出する。
WSJコーパスを用いた重畳音声のシミュレーション実験により,従来の時間平均プーリングに比べて,注意解がほぼ3%向上することが示されている。
論文 参考訳(メタデータ) (2021-10-30T19:24:57Z) - EfficientTDNN: Efficient Architecture Search for Speaker Recognition in
the Wild [29.59228560095565]
認識精度を維持しつつ、推論効率を向上させるために、ニューラルネットワーク探索に基づく効率的な時間遅延ニューラルネットワーク(EfficientTDNN)を提案する。
VoxCelebデータセットの実験では、EfficientTDNNは約1013$sの巨大な検索スペースを提供し、1.66%のEERと0.156のDCF$_0.01$と565MMACを達成している。
論文 参考訳(メタデータ) (2021-03-25T03:28:07Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z) - A Two-Stage Approach to Device-Robust Acoustic Scene Classification [63.98724740606457]
デバイスロバスト性を改善するために,完全畳み込みニューラルネットワーク(CNN)に基づく2段階システムを提案する。
以上の結果から,提案したASCシステムにより,開発環境における最先端の精度が得られた。
クラスアクティベーションマッピングを用いたニューラルサリエンシ解析により、モデルによって学習されたパターンに関する新たな洞察が得られる。
論文 参考訳(メタデータ) (2020-11-03T03:27:18Z) - A temporal-to-spatial deep convolutional neural network for
classification of hand movements from multichannel electromyography data [0.14502611532302037]
我々は,マルチチャネルsEMGのための深部CNNにおける初期処理層の設計を提案し,評価する新しい貢献を行う。
本稿では,各sEMGチャネル上で第1層が個別に畳み込みを行い,時間的特徴を抽出する,新しい時間的空間的CNNアーキテクチャを提案する。
我々の新しいTtS CNN設計はデータベース1では66.6%、データベース2では67.8%の精度を実現している。
論文 参考訳(メタデータ) (2020-07-16T09:11:26Z) - AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。
得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-07T02:53:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。