論文の概要: RIR-SF: Room Impulse Response Based Spatial Feature for Multi-channel
Multi-talker ASR
- arxiv url: http://arxiv.org/abs/2311.00146v1
- Date: Tue, 31 Oct 2023 20:42:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 15:46:48.753421
- Title: RIR-SF: Room Impulse Response Based Spatial Feature for Multi-channel
Multi-talker ASR
- Title(参考訳): RIR-SF:マルチチャンネルマルチストーカーASRにおける室内インパルス応答に基づく空間的特徴
- Authors: Yiwen Shao, Shi-Xiong Zhang, Dong Yu
- Abstract要約: 本稿では,話者のマイクロホンアレイへの送信に対応する室内インパルス応答(RIR)と重なり合う音声信号の畳み込みを含む新しい手法を提案する。
この革新的な技術は、RIR-SFとして知られる新しい空間的特徴をもたらす。
RIR-SFは既存の手法よりも優れており、マルチチャネルマルチトーカーASRシステムにおいて、文字誤り率(CER)が21.3%減少することを示す。
- 参考スコア(独自算出の注目度): 41.0305667504882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-channel multi-talker automatic speech recognition (ASR) presents
ongoing challenges within the speech community, particularly when confronted
with significant reverberation effects. In this study, we introduce a novel
approach involving the convolution of overlapping speech signals with the room
impulse response (RIR) corresponding to the target speaker's transmission to a
microphone array. This innovative technique yields a novel spatial feature
known as the RIR-SF. Through a comprehensive comparison with the previously
established state-of-the-art 3D spatial feature, both theoretical analysis and
experimental results substantiate the superiority of our proposed RIR-SF. We
demonstrate that the RIR-SF outperforms existing methods, leading to a
remarkable 21.3\% relative reduction in the Character Error Rate (CER) in
multi-channel multi-talker ASR systems. Importantly, this novel feature
exhibits robustness in the face of strong reverberation, surpassing the
limitations of previous approaches.
- Abstract(参考訳): マルチチャンネルマルチトーカー自動音声認識(ASR)は、特に残響効果に直面する場合、音声コミュニティ内で進行中の課題を提示する。
本研究では,話者のマイクロホンアレイへの送信に対応する室内インパルス応答(RIR)と重なり合う音声信号の畳み込みを含む新しい手法を提案する。
この革新的な技術は、RIR-SFとして知られる新しい空間的特徴をもたらす。
従来確立されていた3次元空間特性と総合的に比較することで,提案したRIR-SFの優位性を裏付ける理論解析と実験結果が得られた。
RIR-SFは既存の手法よりも優れており、マルチチャネルマルチトーカーASRシステムにおける文字誤り率(CER)の21.3倍の相対的な減少につながっている。
重要なことに、この新機能は、以前のアプローチの限界を越えて、強い残響に直面した堅牢性を示す。
関連論文リスト
- AV-RIR: Audio-Visual Room Impulse Response Estimation [49.469389715876915]
室内インパルス応答(RIR)の正確な推定は,音声処理やAR/VR応用において重要である。
本稿では,与えられた残響音声信号と対応する環境の視覚的手がかりからRIRを正確に推定する,新しいマルチモーダルマルチタスク学習手法であるAV-RIRを提案する。
論文 参考訳(メタデータ) (2023-11-30T22:58:30Z) - Exploring the Integration of Speech Separation and Recognition with
Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。
我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。
TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文 参考訳(メタデータ) (2023-07-23T05:39:39Z) - Few-Shot Audio-Visual Learning of Environment Acoustics [89.16560042178523]
室内インパルス応答 (RIR) 関数は、周囲の物理的環境がリスナーが聴く音をどう変換するかをキャプチャする。
我々は、空間で観測された画像とエコーのスパースセットに基づいて、RIRを推測する方法を探る。
3次元環境のための最先端オーディオ視覚シミュレータを用いた実験において,本手法が任意のRIRを生成できることを実証した。
論文 参考訳(メタデータ) (2022-06-08T16:38:24Z) - Multi-Channel Multi-Speaker ASR Using 3D Spatial Feature [35.280174671205046]
本稿では,3次元空間におけるターゲット話者の位置情報を初めて活用することによって,課題を考察する。
2つのパラダイムについて検討した。1) 多チャンネル音声分離モジュールを備えたパイプラインシステムと,1)最先端の単一チャネルASRモジュール,2)3次元空間特徴を直接ASRシステムへの入力として使用する「オール・イン・ワン」モデルである。
実験結果から,1)提案したALL-In-Oneモデルは,推定時間を半分に減らしながら,パイプラインシステムに匹敵する誤差率を達成した。
論文 参考訳(メタデータ) (2021-11-22T07:19:12Z) - Directional ASR: A New Paradigm for E2E Multi-Speaker Speech Recognition
with Source Localization [73.62550438861942]
本稿では、指向性自動音声認識(D-ASR)と呼ばれる、エンドツーエンドのニューラルネットワーク方式で遠距離場マルチスピーカデータを処理するための新しいパラダイムを提案する。
D-ASRでは、マイクロホンアレイに対するソースの方位角を潜時変数として定義する。
論文 参考訳(メタデータ) (2020-10-30T20:26:28Z) - Discriminative Multi-modality Speech Recognition [17.296404414250553]
視覚は、しばしば音声音声認識(ASR)の相補的モダリティとして使用される。
本稿では,2段階音声認識モデルを提案する。
第1段階では、対象の音声を、対応する唇の動きの視覚情報から助けを借りて背景雑音から分離し、モデル「リスト」を明確にする。
第2段階では、音声モダリティは視覚的モダリティを再び組み合わせて、MSRサブネットワークによる音声の理解を深め、認識率をさらに向上させる。
論文 参考訳(メタデータ) (2020-05-12T07:56:03Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。