論文の概要: DeepSpeech models show Human-like Performance and Processing of Cochlear Implant Inputs
- arxiv url: http://arxiv.org/abs/2407.20535v1
- Date: Tue, 30 Jul 2024 04:32:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 18:19:06.921798
- Title: DeepSpeech models show Human-like Performance and Processing of Cochlear Implant Inputs
- Title(参考訳): DeepSpeechモデルによる人工内耳入力の性能と処理
- Authors: Cynthia R. Steinhardt, Menoua Keshishian, Nima Mesgarani, Kim Stachenfeld,
- Abstract要約: 我々は、ディープニューラルネットワーク(DNN)のDeepSpeech2をパラダイムとして、自然入力と人工内耳ベースの入力が時間の経過とともにどのように処理されるかを調べる。
音声文から自然言語および人工内耳のような入力を生成し、モデル性能と人的性能の類似性を検証した。
各レイヤにおける時間的ダイナミクスは、コンテキストや入力タイプの影響を受けます。
- 参考スコア(独自算出の注目度): 12.234206036041218
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Cochlear implants(CIs) are arguably the most successful neural implant, having restored hearing to over one million people worldwide. While CI research has focused on modeling the cochlear activations in response to low-level acoustic features, we hypothesize that the success of these implants is due in large part to the role of the upstream network in extracting useful features from a degraded signal and learned statistics of language to resolve the signal. In this work, we use the deep neural network (DNN) DeepSpeech2, as a paradigm to investigate how natural input and cochlear implant-based inputs are processed over time. We generate naturalistic and cochlear implant-like inputs from spoken sentences and test the similarity of model performance to human performance on analogous phoneme recognition tests. Our model reproduces error patterns in reaction time and phoneme confusion patterns under noise conditions in normal hearing and CI participant studies. We then use interpretability techniques to determine where and when confusions arise when processing naturalistic and CI-like inputs. We find that dynamics over time in each layer are affected by context as well as input type. Dynamics of all phonemes diverge during confusion and comprehension within the same time window, which is temporally shifted backward in each layer of the network. There is a modulation of this signal during processing of CI which resembles changes in human EEG signals in the auditory stream. This reduction likely relates to the reduction of encoded phoneme identity. These findings suggest that we have a viable model in which to explore the loss of speech-related information in time and that we can use it to find population-level encoding signals to target when optimizing cochlear implant inputs to improve encoding of essential speech-related information and improve perception.
- Abstract(参考訳): 人工内耳(CI)はおそらく最も成功した神経インプラントであり、世界中で100万人以上の人が聴力を取り戻している。
CI研究は低レベルの音響特性に応答して人工内耳の活性化をモデル化することに重点を置いているが、これらのインプラントの成功は、劣化した信号から有用な特徴を抽出し、その信号を解決するために言語統計を学習する上で、上流ネットワークの役割に起因していると仮定する。
本研究では、ディープニューラルネットワーク(DNN)のDeepSpeech2をパラダイムとして、自然入力と人工内耳による入力が時間とともにどのように処理されるかを調べる。
音声文から自然的, 人工内耳的入力を生成し, 類似音素認識テストにおいて, モデル性能と人的性能の類似性を検証した。
本モデルでは, 雑音条件下での反応時間と音素混和パターンの誤りパターンを再現する。
次に、解釈可能性技術を用いて、自然主義的およびCI的な入力を処理する際に、いつ、いつ、混乱が起こるかを決定する。
各レイヤにおける時間的ダイナミクスは、コンテキストや入力タイプの影響を受けます。
すべての音素のダイナミクスは、同じ時間窓内で混乱と理解の間に分岐し、ネットワークの各層で時間的に逆向きに変化する。
聴覚ストリームにおけるヒト脳波信号の変化に似たCI処理中に、このシグナルを変調する。
この減少は、符号化された音素アイデンティティの減少に関係している可能性が高い。
以上の結果から,人工内耳装用入力を最適化し,本質的な音声関連情報の符号化を改善し,知覚の向上を図る際に,音声関連情報の時間的損失を探索し,対象とする集団レベルの符号化信号を見つけることが可能であることが示唆された。
関連論文リスト
- Exploring neural oscillations during speech perception via surrogate gradient spiking neural networks [59.38765771221084]
本稿では、ディープラーニングフレームワークと互換性があり、スケーラブルな、生理学的にインスパイアされた音声認識アーキテクチャを提案する。
本研究では, 終末から終末までの勾配降下訓練が, 中枢スパイク神経ネットワークにおける神経振動の出現に繋がることを示す。
本研究は, スパイク周波数適応やリカレント接続などのフィードバック機構が, 認識性能を向上させるために, 神経活動の調節と同期に重要な役割を担っていることを明らかにする。
論文 参考訳(メタデータ) (2024-04-22T09:40:07Z) - Artificial Intelligence for Cochlear Implants: Review of Strategies, Challenges, and Perspectives [2.608119698700597]
本総説は、CIベースのASRと音声強調の進歩を包括的にカバーすることを目的としている。
このレビューは潜在的な応用を掘り下げ、この領域の既存の研究ギャップを埋めるための今後の方向性を提案する。
論文 参考訳(メタデータ) (2024-03-17T11:28:23Z) - Surrogate Gradient Spiking Neural Networks as Encoders for Large
Vocabulary Continuous Speech Recognition [91.39701446828144]
スパイクニューラルネットワークは, 代理勾配法を用いて, 通常のリカレントニューラルネットワークのように訓練可能であることを示す。
彼らは音声コマンド認識タスクについて有望な結果を示した。
繰り返し発生する非スパイキングとは対照的に、ゲートを使わずに爆発する勾配問題に対して堅牢性を示す。
論文 参考訳(メタデータ) (2022-12-01T12:36:26Z) - End-to-End Binaural Speech Synthesis [71.1869877389535]
本稿では,低ビットレート音声システムと強力なデコーダを組み合わせたエンドツーエンド音声合成システムを提案する。
実感的な聴覚シーンを作るために必要な環境効果を捉える上で, 対人的損失がもたらす効果を実証する。
論文 参考訳(メタデータ) (2022-07-08T05:18:36Z) - Canonical Cortical Graph Neural Networks and its Application for Speech
Enhancement in Future Audio-Visual Hearing Aids [0.726437825413781]
本稿では, 層内変調を用いたマルチモーダル情報と正準相関解析(CCA)を組み合わせた, より生物学的に妥当な自己教師型機械学習手法を提案する。
この手法は、よりクリーンなオーディオ再構成とエネルギー効率の両方を考慮した最近の最先端の結果より優れており、スモーザーでスモーザーなニューロンの発火速度分布によって説明されている。
論文 参考訳(メタデータ) (2022-06-06T15:20:07Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Multi-Modal Detection of Alzheimer's Disease from Speech and Text [3.702631194466718]
本稿では,アルツハイマー病(AD)の診断に音声と対応する文字を同時に利用する深層学習手法を提案する。
提案手法は,Dementiabank Pitt corpus のトレーニングおよび評価において,85.3%のクロスバリデーション精度を実現する。
論文 参考訳(メタデータ) (2020-11-30T21:18:17Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z) - A convolutional neural-network model of human cochlear mechanics and
filter tuning for real-time applications [11.086440815804226]
本稿では,畳み込みニューラルネットワークと計算神経科学を組み合わせるハイブリッドアプローチを提案する。
CoNNearモデルは、ヒトの人工内耳周波数選択率とその音響強度依存性を正確にシミュレートする。
これらのユニークなCNNear機能は、次世代のヒューマンライクな機械学習アプリケーションを可能にする。
論文 参考訳(メタデータ) (2020-04-30T14:43:03Z) - Fast frequency discrimination and phoneme recognition using a biomimetic
membrane coupled to a neural network [2.314552275307609]
ヒトの耳では、基底膜は音声認識において中心的な役割を果たす。
この構造に着想を得て,音響信号に応答して空間変位パターンを生成する人工膜を設計・製作した。
単一周波数のトーンで訓練すると、このシステムは周波数に密接な空間を持つトーンをあいまいに区別することができる。
論文 参考訳(メタデータ) (2020-04-09T10:07:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。