論文の概要: Scaling sparsemax based channel selection for speech recognition with
ad-hoc microphone arrays
- arxiv url: http://arxiv.org/abs/2103.15305v2
- Date: Tue, 30 Mar 2021 15:51:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-31 11:58:19.941869
- Title: Scaling sparsemax based channel selection for speech recognition with
ad-hoc microphone arrays
- Title(参考訳): アドホックマイクロホンアレイを用いた音声認識のためのスパースマックスに基づくチャネル選択
- Authors: Junqi Chen, Xiao-Lei Zhang
- Abstract要約: 本稿では,大規模アドホックマイクロホンアレイを用いた音声認識のチャネル選択問題に対するScaling Sparsemaxアルゴリズムを提案する。
コンバータ音声認識アーキテクチャの下で30以上のチャネルからなるアドホックマイクロホンアレイの実験結果から,提案したScaling SparsemaxはSoftmaxよりも30%以上低い単語誤り率を示す。
- 参考スコア(独自算出の注目度): 8.805048866677518
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, speech recognition with ad-hoc microphone arrays has received much
attention. It is known that channel selection is an important problem of ad-hoc
microphone arrays, however, this topic seems far from explored in speech
recognition yet, particularly with a large-scale ad-hoc microphone array. To
address this problem, we propose a Scaling Sparsemax algorithm for the channel
selection problem of the speech recognition with large-scale ad-hoc microphone
arrays. Specifically, we first replace the conventional Softmax operator in the
stream attention mechanism of a multichannel end-to-end speech recognition
system with Sparsemax, which conducts channel selection by forcing the channel
weights of noisy channels to zero. Because Sparsemax punishes the weights of
many channels to zero harshly, we propose Scaling Sparsemax which punishes the
channels mildly by setting the weights of very noisy channels to zero only.
Experimental results with ad-hoc microphone arrays of over 30 channels under
the conformer speech recognition architecture show that the proposed Scaling
Sparsemax yields a word error rate of over 30% lower than Softmax on simulation
data sets, and over 20% lower on semi-real data sets, in test scenarios with
both matched and mismatched channel numbers.
- Abstract(参考訳): 近年,アドホックマイクロホンアレイを用いた音声認識が注目されている。
アドホックマイクロホンアレイではチャネル選択が重要な問題であることが知られているが、特に大規模アドホックマイクロホンアレイを用いた音声認識では、この話題はまだ検討されていないようである。
そこで本研究では,大規模アドホックマイクロホンアレイを用いた音声認識におけるチャネル選択問題に対するScaling Sparsemaxアルゴリズムを提案する。
具体的には,マルチチャネル・エンド・ツー・エンド音声認識システムのストリームアテンション機構における従来のソフトマックス演算子を,ノイズチャネルのチャネル重みをゼロにすることでチャネル選択を行うスパースマックスに置き換える。
sparsemaxは多数のチャネルの重みをゼロに厳しく罰するので、非常にノイズの多いチャネルの重みをゼロにすることで、チャネルを軽度に罰するスケールsparsemaxを提案する。
コンバータ音声認識アーキテクチャの下で30以上のチャネルからなるアドホックマイクロホンアレイの実験結果から,提案したScaling Sparsemaxは,シミュレーションデータセット上ではSoftmaxよりも30%以上,半現実データセットでは20%以上,一致したチャネル番号と不一致のチャネル番号を持つテストシナリオにおいてワードエラー率が得られることがわかった。
関連論文リスト
- Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - Multimodal Data and Resource Efficient Device-Directed Speech Detection
with Large Foundation Models [43.155061160275196]
トリガーフレーズを不要にすることで,仮想アシスタントとの対話をより自然なものにする可能性を探る。
我々の目標は、デバイスマイクが記録したストリーミングオーディオから得られる信号に基づいて、仮想アシスタントに対処するかどうかを判断することである。
本稿では,音声認識システムからの1-best仮説とデコーダ信号と,オーディオエンコーダからの音響表現を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-06T17:29:03Z) - PickNet: Real-Time Channel Selection for Ad Hoc Microphone Arrays [15.788867107071244]
PickNetは、携帯電話のような複数の記録デバイスで構成されるアドホックマイクロフォンアレイのリアルタイムチャネル選択のためのニューラルネットワークモデルである。
提案モデルでは,ブロックオンラインビームフォーマと単一遠方マイクロホンを用いて,計算コストの制限による単語誤り率の大幅な向上を実現した。
論文 参考訳(メタデータ) (2022-01-24T10:52:43Z) - Multi-Channel End-to-End Neural Diarization with Distributed Microphones [53.99406868339701]
EENDのTransformerエンコーダを,マルチチャネル入力を処理する2種類のエンコーダに置き換える。
また,単一チャンネル記録のみを用いたモデル適応手法を提案する。
論文 参考訳(メタデータ) (2021-10-10T03:24:03Z) - Continuous Speech Separation with Ad Hoc Microphone Arrays [35.87274524040486]
音声分離は複数話者音声認識に有効であることが示された。
本稿では,このアプローチを連続音声分離に拡張する。
単一話者セグメントにおける音声問題を緩和する2つの手法を提案する。
論文 参考訳(メタデータ) (2021-03-03T13:01:08Z) - Deep Ad-hoc Beamforming Based on Speaker Extraction for Target-Dependent
Speech Separation [7.453268060082337]
本稿では,話者抽出に基づくディープアドホックビームフォーミングを提案する。これは,アドホックマイクロホンアレイとディープラーニングに基づくターゲット依存音声分離のための最初の研究である。
実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-12-01T11:06:36Z) - Scene-Agnostic Multi-Microphone Speech Dereverberation [47.735158037490834]
本稿では,数と位置が不明なマイクロホンアレイに対処可能なNNアーキテクチャを提案する。
提案手法は,残響対数スペクトルを向上するアーキテクチャを設計するために,集合構造データの深層学習を活用している。
論文 参考訳(メタデータ) (2020-10-22T17:13:12Z) - VoiceFilter-Lite: Streaming Targeted Voice Separation for On-Device
Speech Recognition [60.462770498366524]
ターゲットユーザからの音声信号のみを保存するためにデバイス上で実行される単一チャネルソース分離モデルであるVoiceFilter-Liteを導入する。
本研究では,そのようなモデルを8ビット整数モデルとして量子化し,リアルタイムに実行可能であることを示す。
論文 参考訳(メタデータ) (2020-09-09T14:26:56Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z) - SpEx: Multi-Scale Time Domain Speaker Extraction Network [89.00319878262005]
話者抽出は、ターゲット話者の声を複数話者環境から抽出することで、人間の選択的な聴覚的注意を模倣することを目的としている。
周波数領域の抽出を行い、抽出した大きさと推定位相スペクトルから時間領域信号を再構成することが一般的である。
本研究では,混合音声を音声信号を大域・位相スペクトルに分解する代わりに,マルチスケールの埋め込み係数に変換する時間領域話者抽出ネットワーク(SpEx)を提案する。
論文 参考訳(メタデータ) (2020-04-17T16:13:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。