論文の概要: Quaternion Neural Networks for Multi-channel Distant Speech Recognition
- arxiv url: http://arxiv.org/abs/2005.08566v2
- Date: Tue, 19 May 2020 10:06:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 23:13:26.908659
- Title: Quaternion Neural Networks for Multi-channel Distant Speech Recognition
- Title(参考訳): 多チャンネル距離音声認識のための四元ニューラルネットワーク
- Authors: Xinchi Qiu, Titouan Parcollet, Mirco Ravanelli, Nicholas Lane, Mohamed
Morchid
- Abstract要約: この問題を緩和するための一般的なアプローチは、複数のマイクで記録装置を装備することである。
四元系ニューラルネットワークを用いて,これらの構造的依存関係と構造的依存関係を捉えることを提案する。
多チャンネル音声信号に基づいて訓練された四元長長長記憶ニューラルネットワーク(QLSTM)は、遠隔音声認識の2つの異なるタスクにおいて、等価実数値LSTMより優れていることを示す。
- 参考スコア(独自算出の注目度): 25.214316268077244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the significant progress in automatic speech recognition (ASR),
distant ASR remains challenging due to noise and reverberation. A common
approach to mitigate this issue consists of equipping the recording devices
with multiple microphones that capture the acoustic scene from different
perspectives. These multi-channel audio recordings contain specific internal
relations between each signal. In this paper, we propose to capture these
inter- and intra- structural dependencies with quaternion neural networks,
which can jointly process multiple signals as whole quaternion entities. The
quaternion algebra replaces the standard dot product with the Hamilton one,
thus offering a simple and elegant way to model dependencies between elements.
The quaternion layers are then coupled with a recurrent neural network, which
can learn long-term dependencies in the time domain. We show that a quaternion
long-short term memory neural network (QLSTM), trained on the concatenated
multi-channel speech signals, outperforms equivalent real-valued LSTM on two
different tasks of multi-channel distant speech recognition.
- Abstract(参考訳): 音声認識(ASR)の進歩にもかかわらず、雑音や残響により遠方のASRは困難である。
この問題を軽減する一般的なアプローチは、録音装置に複数のマイクを装着し、異なる視点から音響シーンをキャプチャすることである。
これらのマルチチャネルオーディオ記録は、各信号間の特定の内部関係を含む。
本稿では,これらの構造的依存関係を四元系ニューラルネットワークで捉え,複数の信号を四元系全体として共同処理する手法を提案する。
四元数代数は標準ドット積をハミルトン積に置き換え、要素間の依存関係をシンプルでエレガントにモデル化する方法を提供する。
四元層はリカレントニューラルネットワークと結合され、時間領域における長期的な依存関係を学習する。
連続した多チャンネル音声信号に基づいて訓練された四元長短長期記憶ニューラルネットワーク(QLSTM)が、多チャンネル遠隔音声認識の2つのタスクにおいて等価実数値LSTMより優れていることを示す。
関連論文リスト
- Dual input neural networks for positional sound source localization [19.07039703121673]
本稿では、これらの2つのデータ型をニューラルネットワークでモデル化するための、単純かつ効果的な方法として、Dual Input Neural Networks(DI-NN)を紹介する。
難易度と現実性の異なるシナリオに基づいて提案したDI-NNをトレーニングし、評価し、代替アーキテクチャと比較する。
以上の結果から,DI-NNはLS法よりも5倍,CRNNより2倍低い位置推定誤差を達成できることがわかった。
論文 参考訳(メタデータ) (2023-08-08T09:59:56Z) - Multi-View Frequency-Attention Alternative to CNN Frontends for
Automatic Speech Recognition [12.980843126905203]
周波数に対するグローバルな関心は、局所的な畳み込みよりも有益であることを示す。
畳み込み型ニューラルネットワークトランスデューサに代えて,生産規模での単語誤り率を2.4%削減する。
論文 参考訳(メタデータ) (2023-06-12T08:37:36Z) - BASEN: Time-Domain Brain-Assisted Speech Enhancement Network with
Convolutional Cross Attention in Multi-talker Conditions [36.15815562576836]
時間領域単一チャネル音声強調(SE)は、マルチトーカー条件に関する事前情報なしでターゲット話者を抽出することが依然として困難である。
本稿では,脳波(EEG)を聴取者から記録した脳波を組み込んだ新しい時間領域脳波支援SEネットワーク(BASEN)を提案する。
論文 参考訳(メタデータ) (2023-05-17T06:40:31Z) - MFA: TDNN with Multi-scale Frequency-channel Attention for
Text-independent Speaker Verification with Short Utterances [94.70787497137854]
本稿では、畳み込みニューラルネットワークとTDNNからなる新しいデュアルパス設計により、話者を異なるスケールで特徴付けるマルチスケール周波数チャネルアテンション(MFA)を提案する。
我々は,提案したMFAをVoxCelebデータベース上で評価し,提案したMFAを用いたフレームワークが,パラメータや複雑性を低減しつつ,最先端のパフォーマンスを実現することを確認した。
論文 参考訳(メタデータ) (2022-02-03T14:57:05Z) - Multi-Channel End-to-End Neural Diarization with Distributed Microphones [53.99406868339701]
EENDのTransformerエンコーダを,マルチチャネル入力を処理する2種類のエンコーダに置き換える。
また,単一チャンネル記録のみを用いたモデル適応手法を提案する。
論文 参考訳(メタデータ) (2021-10-10T03:24:03Z) - Enhancement of Spatial Clustering-Based Time-Frequency Masks using LSTM
Neural Networks [3.730592618611028]
我々はLSTMを用いて空間クラスタリングに基づく時間周波数マスクを強化する。
複数の単一チャネルLSTM-DNN音声強調器の信号モデリング性能と信号分離性能を両立させる。
カルディ自動音声認識装置の単語誤り率を用いて各システムの出力の可知性を評価する。
論文 参考訳(メタデータ) (2020-12-02T22:29:29Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z) - Neural Speech Separation Using Spatially Distributed Microphones [19.242927805448154]
本稿では,空間分布マイクロホンを用いたニューラルネットワークに基づく音声分離手法を提案する。
従来のマイクアレイの設定とは異なり、マイクの数や空間配置は事前に分かっていない。
音声認識実験の結果,提案手法はベースライン型マルチチャネル音声分離システムよりも有意に優れていた。
論文 参考訳(メタデータ) (2020-04-28T17:16:31Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。