論文の概要: Silent Speech Interfaces for Speech Restoration: A Review
- arxiv url: http://arxiv.org/abs/2009.02110v3
- Date: Sun, 27 Sep 2020 08:50:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 02:31:42.686756
- Title: Silent Speech Interfaces for Speech Restoration: A Review
- Title(参考訳): 音声再生のための無音音声インタフェース : レビュー
- Authors: Jose A. Gonzalez-Lopez, Alejandro Gomez-Alanis, Juan M.
Mart\'in-Do\~nas, Jos\'e L. P\'erez-C\'ordoba, Angel M. Gomez
- Abstract要約: サイレント音声インタフェース (SSI) の研究は、重度音声障害の患者に対して、代替的で拡張的なコミュニケーション方法を提供することを目的としている。
SSIは、コミュニケーションを可能にするために、音声生成中に人体によって生成される非音響バイオシグナーに依存している。
現在、ほとんどのSSIは、健康なユーザーのために実験室でのみ検証されている。
- 参考スコア(独自算出の注目度): 59.68902463890532
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This review summarises the status of silent speech interface (SSI) research.
SSIs rely on non-acoustic biosignals generated by the human body during speech
production to enable communication whenever normal verbal communication is not
possible or not desirable. In this review, we focus on the first case and
present latest SSI research aimed at providing new alternative and augmentative
communication methods for persons with severe speech disorders. SSIs can employ
a variety of biosignals to enable silent communication, such as
electrophysiological recordings of neural activity, electromyographic (EMG)
recordings of vocal tract movements or the direct tracking of articulator
movements using imaging techniques. Depending on the disorder, some sensing
techniques may be better suited than others to capture speech-related
information. For instance, EMG and imaging techniques are well suited for
laryngectomised patients, whose vocal tract remains almost intact but are
unable to speak after the removal of the vocal folds, but fail for severely
paralysed individuals. From the biosignals, SSIs decode the intended message,
using automatic speech recognition or speech synthesis algorithms. Despite
considerable advances in recent years, most present-day SSIs have only been
validated in laboratory settings for healthy users. Thus, as discussed in this
paper, a number of challenges remain to be addressed in future research before
SSIs can be promoted to real-world applications. If these issues can be
addressed successfully, future SSIs will improve the lives of persons with
severe speech impairments by restoring their communication capabilities.
- Abstract(参考訳): 本稿では,サイレント音声インタフェース(SSI)研究の現状を概説する。
SSIは、音声生成中に人体が生み出す非音響的生体信号に頼り、通常の言語コミュニケーションが不可能で、望ましくないときに通信を可能にする。
本総説では,重度言語障害児に対する新しい代替手段と拡張的コミュニケーション手段の提供を目的としたssi研究の初回および最新の事例に焦点を当てる。
SSIは、神経活動の電気生理学的記録、声道運動の筋電図(EMG)記録、画像技術を用いた関節運動の直接追跡など、サイレント通信を可能にするために様々なバイオシグナーを使用することができる。
この障害によっては、音声関連情報を捉えるのに他の方法より適しているものも考えられる。
例えば、emgとイメージング技術は喉頭摘出患者によく適しており、声道はほぼ無傷であるが声帯の除去後に話すことができないが、重度に麻痺した患者には不適である。
生体信号から、ssisは意図したメッセージを自動音声認識または音声合成アルゴリズムを用いて復号する。
近年の進歩にもかかわらず、ほとんどのSSIは健康なユーザーのために実験室でのみ検証されている。
そこで本稿で論じているように、SSIが現実のアプリケーションに昇格する前には、今後の研究で多くの課題に取り組む必要がある。
これらの課題にうまく対処できれば、将来のSSIは、コミュニケーション能力の回復により、重度音声障害者の生活を改善できる。
関連論文リスト
- Geometry of orofacial neuromuscular signals: speech articulation decoding using surface electromyography [0.0]
何百万人もの個人が、神経筋疾患、脳卒中、外傷、頭頸部がん手術により、知能的に話す能力を失っている。
非侵襲的表面筋電図(sEMG)は、これらの個人における音声出力の回復を約束している。
目標は、音声を静かに生成するときに複数の音場からsEMG信号を収集し、その信号をデコードして、流動的で自然なコミュニケーションを可能にすることである。
論文 参考訳(メタデータ) (2024-11-04T20:31:22Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。
本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Artificial Intelligence for Cochlear Implants: Review of Strategies, Challenges, and Perspectives [2.608119698700597]
本総説は、CIベースのASRと音声強調の進歩を包括的にカバーすることを目的としている。
このレビューは潜在的な応用を掘り下げ、この領域の既存の研究ギャップを埋めるための今後の方向性を提案する。
論文 参考訳(メタデータ) (2024-03-17T11:28:23Z) - SottoVoce: An Ultrasound Imaging-Based Silent Speech Interaction Using
Deep Neural Networks [18.968402215723]
ユーザの無声発話を検出するシステムを提案する。
提案システムは,ユーザの発話音声を使わずに発話内容を認識する。
また,音声認識の精度を向上させるために,ユーザが口頭の動きを調整できることも確認した。
論文 参考訳(メタデータ) (2023-03-03T07:46:35Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Synthesizing Dysarthric Speech Using Multi-talker TTS for Dysarthric
Speech Recognition [4.637732011720613]
Dysarthria は運動性発声障害であり、しばしば発声能力の低下を特徴とする。
頑健な変形性障害に対処するためには,十分な訓練音声が必要である。
テキスト音声合成の最近の進歩は、データ拡張に合成を利用する可能性を示している。
論文 参考訳(メタデータ) (2022-01-27T15:22:09Z) - Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。
本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文 参考訳(メタデータ) (2022-01-15T13:02:40Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Multi-task self-supervised learning for Robust Speech Recognition [75.11748484288229]
本稿では,雑音および残響環境下での頑健な音声認識のためのPASE+を提案する。
我々は、様々なランダムな乱れで入力信号を汚染するオンライン音声歪みモジュールを用いる。
次に,再帰型ネットワークと畳み込み型ネットワークを効率よく組み合わせて,短時間および長期の音声力学をよりよく学習する改良型エンコーダを提案する。
論文 参考訳(メタデータ) (2020-01-25T00:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。