論文の概要: IR-UWB Radar-Based Contactless Silent Speech Recognition of Vowels,
Consonants, Words, and Phrases
- arxiv url: http://arxiv.org/abs/2312.09572v1
- Date: Fri, 15 Dec 2023 07:04:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 16:48:51.595819
- Title: IR-UWB Radar-Based Contactless Silent Speech Recognition of Vowels,
Consonants, Words, and Phrases
- Title(参考訳): IR-UWBレーダーによる母音・子音・単語・句の無接触無声音声認識
- Authors: Sunghwa Lee, Younghoon Shin, Myungjong Kim, Jiwon Seo
- Abstract要約: インパルス無線超広帯域(IR-UWB)レーダーは、ユーザの調音器や関連する身体部品と物理的に接触することなく動作することができる。
これらの利点には、高範囲の解像度、高透過性、低消費電力、外部の光や音の干渉に対する堅牢性、空間に制約のあるハンドヘルドデバイスに組み込む能力などがある。
- 参考スコア(独自算出の注目度): 2.5003170112399045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Several sensing techniques have been proposed for silent speech recognition
(SSR); however, many of these methods require invasive processes or sensor
attachment to the skin using adhesive tape or glue, rendering them unsuitable
for frequent use in daily life. By contrast, impulse radio ultra-wideband
(IR-UWB) radar can operate without physical contact with users' articulators
and related body parts, offering several advantages for SSR. These advantages
include high range resolution, high penetrability, low power consumption,
robustness to external light or sound interference, and the ability to be
embedded in space-constrained handheld devices. This study demonstrated IR-UWB
radar-based contactless SSR using four types of speech stimuli (vowels,
consonants, words, and phrases). To achieve this, a novel speech feature
extraction algorithm specifically designed for IR-UWB radar-based SSR is
proposed. Each speech stimulus is recognized by applying a classification
algorithm to the extracted speech features. Two different algorithms,
multidimensional dynamic time warping (MD-DTW) and deep neural network-hidden
Markov model (DNN-HMM), were compared for the classification task.
Additionally, a favorable radar antenna position, either in front of the user's
lips or below the user's chin, was determined to achieve higher recognition
accuracy. Experimental results demonstrated the efficacy of the proposed speech
feature extraction algorithm combined with DNN-HMM for classifying vowels,
consonants, words, and phrases. Notably, this study represents the first
demonstration of phoneme-level SSR using contactless radar.
- Abstract(参考訳): サイレント音声認識(SSR)にはいくつかのセンシング技術が提案されているが、これらの手法の多くは粘着テープや接着剤を用いて皮膚に侵入するプロセスやセンサアタッチメントを必要とするため、日常的に頻繁に使用するには適さない。
対照的に、インパルス無線超広帯域(IR-UWB)レーダーは、ユーザの調音器や関連する身体部品と物理的に接触することなく動作可能であり、SSRにはいくつかの利点がある。
これらの利点には、高域分解能、高い透過性、低消費電力、外部光や音の干渉に対する堅牢性、空間に制約された携帯機器に埋め込まれる能力などがある。
本研究は,4種類の音声刺激(母音,子音,単語,フレーズ)を用いたIR-UWBレーダを用いた非接触SSR実験を行った。
そこで,IR-UWBレーダを用いたSSRのための音声特徴抽出アルゴリズムを提案する。
抽出された音声特徴に分類アルゴリズムを適用して各音声刺激を認識する。
2つの異なるアルゴリズム、MD-DTW(Multidimensional dynamic time warping)とDNN-HMM(Deep Neural Network-hidden Markov model)を比較した。
また,ユーザの唇前か顎下のいずれかに好適なレーダアンテナ位置が決定され,高い認識精度が得られた。
実験により, 母音, 子音, 単語, 句を分類するために, DNN-HMMと組み合わせた音声特徴抽出アルゴリズムの有効性が示された。
本研究は,非接触レーダーを用いた音素レベルSSRの最初の実演である。
関連論文リスト
- Radar Fields: Frequency-Space Neural Scene Representations for FMCW Radar [62.51065633674272]
本稿では,アクティブレーダイメージア用に設計されたニューラルシーン再構成手法であるRadar Fieldsを紹介する。
提案手法では,暗黙的ニューラルジオメトリとリフレクタンスモデルを用いて,暗黙的な物理インフォームドセンサモデルを構築し,生のレーダ測定を直接合成する。
本研究では,密集した車両やインフラを備えた都市景観を含む,多様な屋外シナリオにおける手法の有効性を検証する。
論文 参考訳(メタデータ) (2024-05-07T20:44:48Z) - AV-RIR: Audio-Visual Room Impulse Response Estimation [49.469389715876915]
室内インパルス応答(RIR)の正確な推定は,音声処理やAR/VR応用において重要である。
本稿では,与えられた残響音声信号と対応する環境の視覚的手がかりからRIRを正確に推定する,新しいマルチモーダルマルチタスク学習手法であるAV-RIRを提案する。
論文 参考訳(メタデータ) (2023-11-30T22:58:30Z) - RIR-SF: Room Impulse Response Based Spatial Feature for Target Speech Recognition in Multi-Channel Multi-Speaker Scenarios [36.50731790624643]
室内インパルス応答(RIR)に基づく空間的特徴を持つRIR-SFについて紹介する。
RIR-SFは従来の3次元空間特性よりも優れており、理論的および経験的性能が優れている。
また、RIR-SFのための最適化されたオールニューラルマルチチャネルASRフレームワークを提案し、マルチチャネル設定におけるターゲット話者ASRに対するCERの相対的な21.3%削減を実現した。
論文 参考訳(メタデータ) (2023-10-31T20:42:08Z) - Exploring the Integration of Speech Separation and Recognition with
Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。
我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。
TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文 参考訳(メタデータ) (2023-07-23T05:39:39Z) - A Deep Learning System for Domain-specific Speech Recognition [0.0]
著者らは、事前に訓練されたDeepSpeech2とWav2Vec2音響モデルを使って、利益特異的なASRシステムの開発を行っている。
最高の性能は、Wav2Vec2-Large-LV60音響モデルと外部KenLMから得られる。
また, 音声言語理解(SLU)の一部として, ASR 転写の誤りが生じる可能性についても検討した。
論文 参考訳(メタデータ) (2023-03-18T22:19:09Z) - HDNet: Hierarchical Dynamic Network for Gait Recognition using
Millimeter-Wave Radar [13.19744551082316]
mmWaveレーダを用いた歩行認識のための階層型動的ネットワーク(HDNet)を提案する。
提案手法の優位性を証明するため,2つの公開ミリ波レーダに基づく歩行認識データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-11-01T07:34:22Z) - DeepHybrid: Deep Learning on Automotive Radar Spectra and Reflections
for Object Classification [0.5669790037378094]
本稿では,従来のレーダ信号処理とディープラーニングアルゴリズムを組み合わせた手法を提案する。
提案手法は, 自動緊急ブレーキや衝突回避システムの改善などに用いることができる。
論文 参考訳(メタデータ) (2022-02-17T08:45:11Z) - Directional ASR: A New Paradigm for E2E Multi-Speaker Speech Recognition
with Source Localization [73.62550438861942]
本稿では、指向性自動音声認識(D-ASR)と呼ばれる、エンドツーエンドのニューラルネットワーク方式で遠距離場マルチスピーカデータを処理するための新しいパラダイムを提案する。
D-ASRでは、マイクロホンアレイに対するソースの方位角を潜時変数として定義する。
論文 参考訳(メタデータ) (2020-10-30T20:26:28Z) - Deep Reinforcement Learning Control for Radar Detection and Tracking in
Congested Spectral Environments [8.103366584285645]
レーダは、他のシステムとの相互干渉を軽減するために、その線形周波数変調(LFM)波形の帯域幅と中心周波数を変化させることを学ぶ。
DQLベースのアプローチを拡張して、ダブルQ-ラーニングとリカレントニューラルネットワークを組み込んで、ダブルディープリカレントQ-ネットワークを形成する。
実験結果から,提案手法は集束スペクトル環境におけるレーダ検出性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2020-06-23T17:21:28Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。