論文の概要: RIR-SF: Room Impulse Response Based Spatial Feature for Multi-channel
Multi-talker ASR
- arxiv url: http://arxiv.org/abs/2311.00146v1
- Date: Tue, 31 Oct 2023 20:42:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 15:46:48.753421
- Title: RIR-SF: Room Impulse Response Based Spatial Feature for Multi-channel
Multi-talker ASR
- Title(参考訳): RIR-SF:マルチチャンネルマルチストーカーASRにおける室内インパルス応答に基づく空間的特徴
- Authors: Yiwen Shao, Shi-Xiong Zhang, Dong Yu
- Abstract要約: 本稿では,話者のマイクロホンアレイへの送信に対応する室内インパルス応答(RIR)と重なり合う音声信号の畳み込みを含む新しい手法を提案する。
この革新的な技術は、RIR-SFとして知られる新しい空間的特徴をもたらす。
RIR-SFは既存の手法よりも優れており、マルチチャネルマルチトーカーASRシステムにおいて、文字誤り率(CER)が21.3%減少することを示す。
- 参考スコア(独自算出の注目度): 41.0305667504882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-channel multi-talker automatic speech recognition (ASR) presents
ongoing challenges within the speech community, particularly when confronted
with significant reverberation effects. In this study, we introduce a novel
approach involving the convolution of overlapping speech signals with the room
impulse response (RIR) corresponding to the target speaker's transmission to a
microphone array. This innovative technique yields a novel spatial feature
known as the RIR-SF. Through a comprehensive comparison with the previously
established state-of-the-art 3D spatial feature, both theoretical analysis and
experimental results substantiate the superiority of our proposed RIR-SF. We
demonstrate that the RIR-SF outperforms existing methods, leading to a
remarkable 21.3\% relative reduction in the Character Error Rate (CER) in
multi-channel multi-talker ASR systems. Importantly, this novel feature
exhibits robustness in the face of strong reverberation, surpassing the
limitations of previous approaches.
- Abstract(参考訳): マルチチャンネルマルチトーカー自動音声認識(ASR)は、特に残響効果に直面する場合、音声コミュニティ内で進行中の課題を提示する。
本研究では,話者のマイクロホンアレイへの送信に対応する室内インパルス応答(RIR)と重なり合う音声信号の畳み込みを含む新しい手法を提案する。
この革新的な技術は、RIR-SFとして知られる新しい空間的特徴をもたらす。
従来確立されていた3次元空間特性と総合的に比較することで,提案したRIR-SFの優位性を裏付ける理論解析と実験結果が得られた。
RIR-SFは既存の手法よりも優れており、マルチチャネルマルチトーカーASRシステムにおける文字誤り率(CER)の21.3倍の相対的な減少につながっている。
重要なことに、この新機能は、以前のアプローチの限界を越えて、強い残響に直面した堅牢性を示す。
関連論文リスト
- IR-UWB Radar-Based Contactless Silent Speech Recognition of Vowels,
Consonants, Words, and Phrases [2.5003170112399045]
インパルス無線超広帯域(IR-UWB)レーダーは、ユーザの調音器や関連する身体部品と物理的に接触することなく動作することができる。
これらの利点には、高範囲の解像度、高透過性、低消費電力、外部の光や音の干渉に対する堅牢性、空間に制約のあるハンドヘルドデバイスに組み込む能力などがある。
論文 参考訳(メタデータ) (2023-12-15T07:04:40Z) - AV-RIR: Audio-Visual Room Impulse Response Estimation [49.469389715876915]
室内インパルス応答(RIR)の正確な推定は,音声処理やAR/VR応用において重要である。
本稿では,与えられた残響音声信号と対応する環境の視覚的手がかりからRIRを正確に推定する,新しいマルチモーダルマルチタスク学習手法であるAV-RIRを提案する。
論文 参考訳(メタデータ) (2023-11-30T22:58:30Z) - Synthetic Wave-Geometric Impulse Responses for Improved Speech
Dereverberation [69.1351513309953]
室内インパルス応答 (RIR) の低周波成分を正確にシミュレートすることが, 良好な脱ヴァーベレーションを実現する上で重要であることを示す。
本研究では, ハイブリッド合成RIRで訓練された音声残響モデルが, 従来の幾何線トレーシング法により学習されたRIRで訓練されたモデルよりも優れていたことを示す。
論文 参考訳(メタデータ) (2022-12-10T20:15:23Z) - Towards Improved Room Impulse Response Estimation for Speech Recognition [53.04440557465013]
遠距離場自動音声認識(ASR)におけるブラインドルームインパルス応答(RIR)推定システムを提案する。
まず、改良されたRIR推定と改善されたASR性能の関連性について、ニューラルネットワークを用いたRIR推定器の評価を行った。
次に、残響音声からRIR特徴を符号化し、符号化された特徴からRIRを構成するGANベースのアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-11-08T00:40:27Z) - Few-Shot Audio-Visual Learning of Environment Acoustics [89.16560042178523]
室内インパルス応答 (RIR) 関数は、周囲の物理的環境がリスナーが聴く音をどう変換するかをキャプチャする。
我々は、空間で観測された画像とエコーのスパースセットに基づいて、RIRを推測する方法を探る。
3次元環境のための最先端オーディオ視覚シミュレータを用いた実験において,本手法が任意のRIRを生成できることを実証した。
論文 参考訳(メタデータ) (2022-06-08T16:38:24Z) - Multi-Channel Multi-Speaker ASR Using 3D Spatial Feature [35.280174671205046]
本稿では,3次元空間におけるターゲット話者の位置情報を初めて活用することによって,課題を考察する。
2つのパラダイムについて検討した。1) 多チャンネル音声分離モジュールを備えたパイプラインシステムと,1)最先端の単一チャネルASRモジュール,2)3次元空間特徴を直接ASRシステムへの入力として使用する「オール・イン・ワン」モデルである。
実験結果から,1)提案したALL-In-Oneモデルは,推定時間を半分に減らしながら,パイプラインシステムに匹敵する誤差率を達成した。
論文 参考訳(メタデータ) (2021-11-22T07:19:12Z) - Cross-sentence Neural Language Models for Conversational Speech
Recognition [17.317583079824423]
本稿では, ASR N-best 仮説を再帰する, 効果的なクロス文ニューラル LM 手法を提案する。
また,タスク固有のグローバルトピック情報からクロス文履歴を抽出する手法についても検討する。
論文 参考訳(メタデータ) (2021-06-13T05:30:16Z) - Directional ASR: A New Paradigm for E2E Multi-Speaker Speech Recognition
with Source Localization [73.62550438861942]
本稿では、指向性自動音声認識(D-ASR)と呼ばれる、エンドツーエンドのニューラルネットワーク方式で遠距離場マルチスピーカデータを処理するための新しいパラダイムを提案する。
D-ASRでは、マイクロホンアレイに対するソースの方位角を潜時変数として定義する。
論文 参考訳(メタデータ) (2020-10-30T20:26:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。