論文の概要: A unified multichannel far-field speech recognition system: combining
neural beamforming with attention based end-to-end model
- arxiv url: http://arxiv.org/abs/2401.02673v1
- Date: Fri, 5 Jan 2024 07:11:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-08 15:45:14.819949
- Title: A unified multichannel far-field speech recognition system: combining
neural beamforming with attention based end-to-end model
- Title(参考訳): 多チャンネル遠距離音声認識システム:ニューラルビームフォーミングと注目に基づくエンドツーエンドモデルを組み合わせる
- Authors: Dongdi Zhao, Jianbo Ma, Lu Lu, Jinke Li, Xuan Ji, Lei Zhu, Fuming
Fang, Ming Liu, Feijun Jiang
- Abstract要約: 本稿では,ニューラルビームフォーミングとトランスフォーマーをベースとしたリステン,スペル,アトンド(LAS)音声認識システムを組み合わせた多チャンネル遠距離音声認識システムを提案する。
提案手法は, 強いベースラインに比べて19.26%向上した。
- 参考スコア(独自算出の注目度): 14.795953417531907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Far-field speech recognition is a challenging task that conventionally uses
signal processing beamforming to attack noise and interference problem. But the
performance has been found usually limited due to heavy reliance on
environmental assumption. In this paper, we propose a unified multichannel
far-field speech recognition system that combines the neural beamforming and
transformer-based Listen, Spell, Attend (LAS) speech recognition system, which
extends the end-to-end speech recognition system further to include speech
enhancement. Such framework is then jointly trained to optimize the final
objective of interest. Specifically, factored complex linear projection (fCLP)
has been adopted to form the neural beamforming. Several pooling strategies to
combine look directions are then compared in order to find the optimal
approach. Moreover, information of the source direction is also integrated in
the beamforming to explore the usefulness of source direction as a prior, which
is usually available especially in multi-modality scenario. Experiments on
different microphone array geometry are conducted to evaluate the robustness
against spacing variance of microphone array. Large in-house databases are used
to evaluate the effectiveness of the proposed framework and the proposed method
achieve 19.26\% improvement when compared with a strong baseline.
- Abstract(参考訳): 遠方界音声認識は、従来信号処理ビームフォーミングを雑音や干渉問題に用いてきた課題である。
しかし、環境の前提に大きく依存しているため、パフォーマンスは通常制限されている。
本稿では,ニューラルビームフォーミングとトランスフォーマーに基づくリステン,スペル,アットエンド(LAS)音声認識システムを組み合わせた多チャンネル遠距離音声認識システムを提案する。
このようなフレームワークは、関心の最終目的を最適化するために共同で訓練される。
具体的には、fCLP(Facted Complex linear projection)が神経ビーム形成に採用されている。
ルック方向を組み合わせるためのいくつかのプール戦略を、最適アプローチを見つけるために比較する。
さらに、ソース方向の情報もビームフォーミングに統合され、特にマルチモダリティシナリオで利用可能な、ソース方向の先行としての有用性を探求する。
マイクロホンアレイの間隔分散に対するロバスト性を評価するため,マイクロホンアレイ形状の異なる実験を行った。
大規模社内データベースを用いて,提案手法の有効性評価を行い,強力なベースラインと比較した場合,提案手法は19.26\%向上した。
関連論文リスト
- Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Direction-Aware Joint Adaptation of Neural Speech Enhancement and
Recognition in Real Multiparty Conversational Environments [21.493664174262737]
本稿では,現実の多人数会話環境における音声コミュニケーションを支援する拡張現実ヘッドセットの雑音音声認識について述べる。
本研究では,高信頼な推定文字を用いたクリーン音声信号とノイズ音声信号を用いて,マスク推定器とASRモデルを実行時に共同で更新する半教師付き適応手法を提案する。
論文 参考訳(メタデータ) (2022-07-15T03:43:35Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Multi-Modal Perception Attention Network with Self-Supervised Learning
for Audio-Visual Speaker Tracking [18.225204270240734]
音声と視覚の両方を用いた話者追跡のための新しいマルチモーダル・パーセプション・トラッカー(MPT)を提案する。
MPTは標準データセットと排他データセットでそれぞれ98.6%と78.3%のトラッキング精度を達成した。
論文 参考訳(メタデータ) (2021-12-14T14:14:17Z) - PILOT: Introducing Transformers for Probabilistic Sound Event
Localization [107.78964411642401]
本稿では,受信したマルチチャンネル音声信号の時間的依存性を自己アテンション機構によってキャプチャする,トランスフォーマーに基づく新しい音声イベント定位フレームワークを提案する。
このフレームワークは, 公開されている3つの音声イベントローカライズデータセットを用いて評価し, 局所化誤差と事象検出精度の点で最先端の手法と比較した。
論文 参考訳(メタデータ) (2021-06-07T18:29:19Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - Streaming end-to-end multi-talker speech recognition [34.76106500736099]
本稿では,ストリームアンミキシング・アンド・認識変換器(SURT)を提案する。
我々のモデルは、様々な遅延制約を満たすバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を使用している。
公開されているLibriSpeechMixデータセットの実験から,HEATがPITよりも精度が高いことを示す。
論文 参考訳(メタデータ) (2020-11-26T06:28:04Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z) - Robust Speaker Recognition Using Speech Enhancement And Attention Model [37.33388614967888]
音声強調と話者認識を個別に処理する代わりに、ディープニューラルネットワークを用いた共同最適化により、2つのモジュールを1つのフレームワークに統合する。
雑音に対するロバスト性を高めるため、時間と周波数領域のコンテキスト情報から得られた話者関連特徴を強調するために、多段階アテンション機構を用いる。
その結果,音声強調モデルと多段階アテンションモデルを用いた提案手法は,実験のほとんどの音響条件下では使用しない2つの強いベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-01-14T20:03:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。