論文の概要: RIR-SF: Room Impulse Response Based Spatial Feature for Target Speech Recognition in Multi-Channel Multi-Speaker Scenarios
- arxiv url: http://arxiv.org/abs/2311.00146v2
- Date: Tue, 11 Jun 2024 22:09:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 23:33:02.613061
- Title: RIR-SF: Room Impulse Response Based Spatial Feature for Target Speech Recognition in Multi-Channel Multi-Speaker Scenarios
- Title(参考訳): RIR-SF:マルチチャンネルマルチスピーカシナリオにおけるターゲット音声認識のための室内インパルス応答に基づく空間的特徴
- Authors: Yiwen Shao, Shi-Xiong Zhang, Dong Yu,
- Abstract要約: 室内インパルス応答(RIR)に基づく空間的特徴を持つRIR-SFについて紹介する。
RIR-SFは従来の3次元空間特性よりも優れており、理論的および経験的性能が優れている。
また、RIR-SFのための最適化されたオールニューラルマルチチャネルASRフレームワークを提案し、マルチチャネル設定におけるターゲット話者ASRに対するCERの相対的な21.3%削減を実現した。
- 参考スコア(独自算出の注目度): 36.50731790624643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic speech recognition (ASR) on multi-talker recordings is challenging. Current methods using 3D spatial data from multi-channel audio and visual cues focus mainly on direct waves from the target speaker, overlooking reflection wave impacts, which hinders performance in reverberant environments. Our research introduces RIR-SF, a novel spatial feature based on room impulse response (RIR) that leverages the speaker's position, room acoustics, and reflection dynamics. RIR-SF significantly outperforms traditional 3D spatial features, showing superior theoretical and empirical performance. We also propose an optimized all-neural multi-channel ASR framework for RIR-SF, achieving a relative 21.3\% reduction in CER for target speaker ASR in multi-channel settings. RIR-SF enhances recognition accuracy and demonstrates robustness in high-reverberation scenarios, overcoming the limitations of previous methods.
- Abstract(参考訳): マルチトーカー録音における音声認識(ASR)は困難である。
マルチチャンネルオーディオとビジュアルキューの3次元空間データを用いた現在の手法は、主にターゲット話者からの直接波に焦点を合わせ、反射波の影響を見越して、残響環境における性能を阻害する。
RIR-SFは, 話者の位置, 室内音響, リフレクションダイナミクスを生かした, 室内インパルス応答(RIR)に基づく空間的特徴である。
RIR-SFは従来の3次元空間特性よりも優れており、理論的および経験的性能が優れている。
また、RIR-SFのための最適化されたオールニューラルマルチチャネルASRフレームワークを提案し、マルチチャネル設定におけるターゲット話者ASRに対するCERの相対的な21.3倍の削減を実現した。
RIR-SFは認識精度を高め、従来の手法の限界を克服し、高残響シナリオの堅牢性を示す。
関連論文リスト
- ROSE: A Recognition-Oriented Speech Enhancement Framework in Air Traffic
Control Using Multi-Objective Learning [7.216270043333772]
音声認識能力の向上とASRの精度向上を目的として,音声認識指向音声強調(ROSE)フレームワークを提案する。
実世界の収集コーパスに基づく無線音声エコーを除去するために,エンコーダデコーダに基づくU-Netフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T04:51:41Z) - AV-RIR: Audio-Visual Room Impulse Response Estimation [49.469389715876915]
室内インパルス応答(RIR)の正確な推定は,音声処理やAR/VR応用において重要である。
本稿では,与えられた残響音声信号と対応する環境の視覚的手がかりからRIRを正確に推定する,新しいマルチモーダルマルチタスク学習手法であるAV-RIRを提案する。
論文 参考訳(メタデータ) (2023-11-30T22:58:30Z) - Exploring the Integration of Speech Separation and Recognition with
Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。
我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。
TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文 参考訳(メタデータ) (2023-07-23T05:39:39Z) - Few-Shot Audio-Visual Learning of Environment Acoustics [89.16560042178523]
室内インパルス応答 (RIR) 関数は、周囲の物理的環境がリスナーが聴く音をどう変換するかをキャプチャする。
我々は、空間で観測された画像とエコーのスパースセットに基づいて、RIRを推測する方法を探る。
3次元環境のための最先端オーディオ視覚シミュレータを用いた実験において,本手法が任意のRIRを生成できることを実証した。
論文 参考訳(メタデータ) (2022-06-08T16:38:24Z) - Multi-Channel Multi-Speaker ASR Using 3D Spatial Feature [35.280174671205046]
本稿では,3次元空間におけるターゲット話者の位置情報を初めて活用することによって,課題を考察する。
2つのパラダイムについて検討した。1) 多チャンネル音声分離モジュールを備えたパイプラインシステムと,1)最先端の単一チャネルASRモジュール,2)3次元空間特徴を直接ASRシステムへの入力として使用する「オール・イン・ワン」モデルである。
実験結果から,1)提案したALL-In-Oneモデルは,推定時間を半分に減らしながら,パイプラインシステムに匹敵する誤差率を達成した。
論文 参考訳(メタデータ) (2021-11-22T07:19:12Z) - Directional ASR: A New Paradigm for E2E Multi-Speaker Speech Recognition
with Source Localization [73.62550438861942]
本稿では、指向性自動音声認識(D-ASR)と呼ばれる、エンドツーエンドのニューラルネットワーク方式で遠距離場マルチスピーカデータを処理するための新しいパラダイムを提案する。
D-ASRでは、マイクロホンアレイに対するソースの方位角を潜時変数として定義する。
論文 参考訳(メタデータ) (2020-10-30T20:26:28Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。