論文の概要: SottoVoce: An Ultrasound Imaging-Based Silent Speech Interaction Using
Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2303.01758v1
- Date: Fri, 3 Mar 2023 07:46:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-06 15:50:52.294781
- Title: SottoVoce: An Ultrasound Imaging-Based Silent Speech Interaction Using
Deep Neural Networks
- Title(参考訳): SottoVoce:ディープニューラルネットワークを用いた超音波イメージングに基づくサイレント音声対話
- Authors: Naoki Kimura, Michinari Kono, and Jun Rekimoto
- Abstract要約: ユーザの無声発話を検出するシステムを提案する。
提案システムは,ユーザの発話音声を使わずに発話内容を認識する。
また,音声認識の精度を向上させるために,ユーザが口頭の動きを調整できることも確認した。
- 参考スコア(独自算出の注目度): 18.968402215723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The availability of digital devices operated by voice is expanding rapidly.
However, the applications of voice interfaces are still restricted. For
example, speaking in public places becomes an annoyance to the surrounding
people, and secret information should not be uttered. Environmental noise may
reduce the accuracy of speech recognition. To address these limitations, a
system to detect a user's unvoiced utterance is proposed. From internal
information observed by an ultrasonic imaging sensor attached to the underside
of the jaw, our proposed system recognizes the utterance contents without the
user's uttering voice. Our proposed deep neural network model is used to obtain
acoustic features from a sequence of ultrasound images. We confirmed that audio
signals generated by our system can control the existing smart speakers. We
also observed that a user can adjust their oral movement to learn and improve
the accuracy of their voice recognition.
- Abstract(参考訳): 音声によるデジタルデバイスの利用は急速に拡大している。
しかし、音声インタフェースの応用は依然として制限されている。
例えば、公共の場で話すことは周囲の人々の迷惑になり、秘密情報を発信するべきではない。
環境騒音は音声認識の精度を低下させる。
これらの制約に対処するために,ユーザの無声発話を検出するシステムを提案する。
顎下面に装着した超音波イメージングセンサで観察された内部情報から,提案するシステムは,ユーザの発話音声を使わずに発話内容を認識する。
提案する深層ニューラルネットワークモデルは,超音波画像のシーケンスから音響的特徴を得るために用いられる。
システムによって生成された音声信号が既存のスマートスピーカーを制御できることを確認した。
また,音声認識の精度を向上させるために,ユーザが口頭の動きを調整できることも確認した。
関連論文リスト
- Phoneme-Based Proactive Anti-Eavesdropping with Controlled Recording Privilege [26.3587130339825]
本稿では,情報マスキングのアイデアを取り入れた新しい音素ベースノイズを提案する。
本システムでは,すべての音声認識システムにおいて,録音の認識精度を50%以下に抑えることができる。
論文 参考訳(メタデータ) (2024-01-28T16:56:56Z) - Play it by Ear: Learning Skills amidst Occlusion through Audio-Visual
Imitation Learning [62.83590925557013]
我々は視覚と音声の入力から、部分的に観察された操作タスクのセットを学習する。
提案システムは,遠隔操作による実演とオンラインファインタニングを併用することで,これらの課題を学習する。
模擬課題の集合において、我々のシステムは音声を使うことの恩恵を受けており、オンライン介入を用いることで、オフライン模倣学習の成功率を20%向上できることがわかった。
論文 参考訳(メタデータ) (2022-05-30T04:52:58Z) - Disappeared Command: Spoofing Attack On Automatic Speech Recognition
Systems with Sound Masking [2.9308762189250746]
音声インターフェースは、多くのアプリケーションやスマートデバイスの入力として、ますます広く使われている。
DNNは微妙な乱れによって容易に妨害され、音声によって制御されるインテリジェントな音声アプリケーションにとって非常に危険である誤認識を生じさせる。
論文 参考訳(メタデータ) (2022-04-19T16:26:34Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Privacy-Preserving Speech Representation Learning using Vector
Quantization [0.0]
音声信号には、プライバシー上の懸念を引き起こす話者のアイデンティティなど、多くの機密情報が含まれている。
本稿では,音声認識性能を保ちながら匿名表現を実現することを目的とする。
論文 参考訳(メタデータ) (2022-03-15T14:01:11Z) - Speech Enhancement for Wake-Up-Word detection in Voice Assistants [60.103753056973815]
キースポッティング、特にWake-Up-Word(WUW)検出は音声アシスタントにとって非常に重要なタスクである。
本稿では,WUW検出に適応した音声強調モデルを提案する。
これらのノイズの存在下で、認識率を高め、誤報を減らすことを目的としている。
論文 参考訳(メタデータ) (2021-01-29T18:44:05Z) - A GAN-based Approach for Mitigating Inference Attacks in Smart Home
Environment [3.785123406103385]
本研究では,スマートホーム利用者をスパイしている敵が,機械学習技術を用いてセンシティブな情報を推測する問題について検討する。
スマートホームにおけるプライバシー保護のためのGAN(Generative Adrial Network)に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2020-11-13T02:14:32Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z) - Silent Speech Interfaces for Speech Restoration: A Review [59.68902463890532]
サイレント音声インタフェース (SSI) の研究は、重度音声障害の患者に対して、代替的で拡張的なコミュニケーション方法を提供することを目的としている。
SSIは、コミュニケーションを可能にするために、音声生成中に人体によって生成される非音響バイオシグナーに依存している。
現在、ほとんどのSSIは、健康なユーザーのために実験室でのみ検証されている。
論文 参考訳(メタデータ) (2020-09-04T11:05:50Z) - TinySpeech: Attention Condensers for Deep Speech Recognition Neural
Networks on Edge Devices [71.68436132514542]
エッジ上でのオンデバイス音声認識のための低フットプリント,高効率深層ニューラルネットワーク構築のためのアテンションコンデンサの概念を紹介する。
その有効性を説明するために,デバイス上での音声認識に適した低精度深層ニューラルネットワークTinySpeechを導入する。
論文 参考訳(メタデータ) (2020-08-10T16:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。