論文の概要: ElectrodeNet -- A Deep Learning Based Sound Coding Strategy for Cochlear
Implants
- arxiv url: http://arxiv.org/abs/2305.16753v1
- Date: Fri, 26 May 2023 09:06:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 16:00:45.736514
- Title: ElectrodeNet -- A Deep Learning Based Sound Coding Strategy for Cochlear
Implants
- Title(参考訳): electrodenet -- 人工内耳のためのディープラーニングに基づく音声符号化戦略
- Authors: Enoch Hsin-Ho Huang, Rong Chao, Yu Tsao, Chao-Min Wu
- Abstract要約: ElectrodeNetは人工内耳(CI)のための深層学習に基づく音声符号化戦略
拡張ElectronNet-CS戦略は、さらにチャネル選択(CS)を取り入れている。
The Fast Fourier Transformed bins and channel envelopes obtained from the processing of clean speech by the ACE strategy。
- 参考スコア(独自算出の注目度): 9.468136300919062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: ElectrodeNet, a deep learning based sound coding strategy for the cochlear
implant (CI), is proposed to emulate the advanced combination encoder (ACE)
strategy by replacing the conventional envelope detection using various
artificial neural networks. The extended ElectrodeNet-CS strategy further
incorporates the channel selection (CS). Network models of deep neural network
(DNN), convolutional neural network (CNN), and long short-term memory (LSTM)
were trained using the Fast Fourier Transformed bins and channel envelopes
obtained from the processing of clean speech by the ACE strategy. Objective
speech understanding using short-time objective intelligibility (STOI) and
normalized covariance metric (NCM) was estimated for ElectrodeNet using CI
simulations. Sentence recognition tests for vocoded Mandarin speech were
conducted with normal-hearing listeners. DNN, CNN, and LSTM based ElectrodeNets
exhibited strong correlations to ACE in objective and subjective scores using
mean squared error (MSE), linear correlation coefficient (LCC) and Spearman's
rank correlation coefficient (SRCC). The ElectrodeNet-CS strategy was capable
of producing N-of-M compatible electrode patterns using a modified DNN network
to embed maxima selection, and to perform in similar or even slightly higher
average in STOI and sentence recognition compared to ACE. The methods and
findings demonstrated the feasibility and potential of using deep learning in
CI coding strategy.
- Abstract(参考訳): 人工ニューラルネットワークを用いた従来の封筒検出を置き換えることで,高度な組合せエンコーダ(ACE)戦略をエミュレートするために,深層学習に基づく人工内耳インプラント(CI)の音響符号化戦略であるElectrodeNetを提案する。
拡張電極ネット−cs戦略はさらにチャネル選択(cs)を組み込む。
ニューラルネットワーク(dnn)、畳み込みニューラルネットワーク(cnn)、long short-term memory(lstm)のネットワークモデルは、ace戦略によってクリーン音声の処理から得られた高速フーリエ変換ビンとチャネルエンベロープを用いて訓練された。
短時間客観性(stoi)と正規化共分散メトリック(ncm)を用いた客観音声理解をciシミュレーションを用いて推定した。
正常聴取者を対象に,音声によるマンダリン音声の文認識試験を行った。
平均二乗誤差 (MSE) , 線形相関係数 (LCC) およびスピアマンランク相関係数 (SRCC) を用いて, DNN, CNN, LSTMベースのElectrodeNets とACEの客観的および主観的スコアの相関性を示した。
ElectrodeNet-CS戦略は、修正されたDNNネットワークを用いてN-of-M互換電極パターンを生成し、最大選択を埋め込むことができ、STOIやACEと比較して、STOIや文認識において、同等あるいはわずかに高い平均で実行することができた。
これらの方法と知見は,CIコーディング戦略における深層学習の可能性と可能性を示した。
関連論文リスト
- Spiking Neural Network Decision Feedback Equalization [70.3497683558609]
決定フィードバック等化器(DFE)に似たフィードバック構造を持つSNNベースの等化器を提案する。
提案手法は,3種類の模範チャネルに対して,従来の線形等化器よりも明らかに優れていることを示す。
決定フィードバック構造を持つSNNは、競合エネルギー効率の良いトランシーバへのパスを可能にする。
論文 参考訳(メタデータ) (2022-11-09T09:19:15Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - Convolutional Spiking Neural Networks for Detecting Anticipatory Brain Potentials Using Electroencephalogram [0.21847754147782888]
スパイキングニューラルネットワーク(SNN)は、生体系におけるシナプス接続を模倣しスパイクトレインを発生させるため、注目を集めている。
近年,畳み込みネットワークの特徴抽出能力とSNNの計算効率を組み合わせた畳み込み層が導入された。
本稿では、畳み込みスパイクニューラルネットワーク(CSNN)を用いて、予測速度の遅い大脳皮質電位を検出することの実現可能性について検討する。
論文 参考訳(メタデータ) (2022-08-14T19:04:15Z) - Low-bit Quantization of Recurrent Neural Network Language Models Using
Alternating Direction Methods of Multipliers [67.688697838109]
本稿では、乗算器の交互方向法(ADMM)を用いて、スクラッチから量子化RNNLMを訓練する新しい手法を提案する。
2つのタスクの実験から、提案されたADMM量子化は、完全な精度ベースライン RNNLM で最大31倍のモデルサイズ圧縮係数を達成したことが示唆された。
論文 参考訳(メタデータ) (2021-11-29T09:30:06Z) - BioLCNet: Reward-modulated Locally Connected Spiking Neural Networks [0.6193838300896449]
本稿では,スパイクタイピング依存型可塑性(STDP)と,その報酬変調型(R-STDP)学習規則を用いて訓練したスパイクニューラルネットワーク(SNN)を提案する。
ネットワークは、レートコードされた入力層と、ローカルに接続された隠れ層とデコード出力層から構成される。
我々は,MNISTデータセットを用いて,画像分類精度と報奨システムのロバスト性を評価した。
論文 参考訳(メタデータ) (2021-09-12T15:28:48Z) - EEG-GNN: Graph Neural Networks for Classification of
Electroencephalogram (EEG) Signals [20.991468018187362]
畳み込みニューラルネットワーク(CNN)は脳波(EEG)から主観的不変の特徴を抽出するために頻繁に用いられる。
電極部位の機能的ネットワークに対する2次元グリッド型入力に適用される畳み込みとプーリングの概念を調整することにより、この制限を克服する。
我々は,グラフのノードに電極を投影する様々なグラフニューラルネットワーク(GNN)モデルを開発し,ノードの特徴を試行錯誤時に収集したEEGチャネルのサンプルとして表現し,ノードを重み付き/非重み付きエッジで接続する。
論文 参考訳(メタデータ) (2021-06-16T21:19:12Z) - Decentralizing Feature Extraction with Quantum Convolutional Neural
Network for Automatic Speech Recognition [101.69873988328808]
特徴抽出のための量子回路エンコーダからなる量子畳み込みニューラルネットワーク(QCNN)を構築した。
入力音声はまず、Mel-spectrogramを抽出するために量子コンピューティングサーバにアップストリームされる。
対応する畳み込み特徴は、ランダムパラメータを持つ量子回路アルゴリズムを用いて符号化される。
符号化された機能は、最終認識のためにローカルRNNモデルにダウンストリームされる。
論文 参考訳(メタデータ) (2020-10-26T03:36:01Z) - Attention Driven Fusion for Multi-Modal Emotion Recognition [39.295892047505816]
本稿では,感情分類のためのテキストと音響データを活用・融合するための深層学習に基づくアプローチを提案する。
我々は、帯域通過フィルタを用いたパラメータ化シンク関数に基づくSincNet層を用いて、生音声から音響特徴を抽出し、DCNNで処理する。
テキスト処理では,N-gramレベルの相関を推定するために,2つの分岐(DCNNとBi-direction RNNとDCNN)を並列に使用する。
論文 参考訳(メタデータ) (2020-09-23T08:07:58Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z) - Progressive Tandem Learning for Pattern Recognition with Deep Spiking
Neural Networks [80.15411508088522]
スパイキングニューラルネットワーク(SNN)は、低レイテンシと高い計算効率のために、従来の人工知能ニューラルネットワーク(ANN)よりも優位性を示している。
高速かつ効率的なパターン認識のための新しいANN-to-SNN変換およびレイヤワイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-02T15:38:44Z) - Exploring Pre-training with Alignments for RNN Transducer based
End-to-End Speech Recognition [39.497407288772386]
リカレントニューラルネットワークトランスデューサ(RNN-T)アーキテクチャは、エンドツーエンドの自動音声認識研究において、新たなトレンドとなっている。
本研究では、外部アライメントを活用してRNN-Tモデルをシードする。
エンコーダ事前学習(encoder pre-training)と全ネットワーク事前学習( whole-network pre-training)と呼ばれる2つの異なる事前学習ソリューションが検討されている。
論文 参考訳(メタデータ) (2020-05-01T19:00:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。