論文の概要: CabinSep: IR-Augmented Mask-Based MVDR for Real-Time In-Car Speech Separation with Distributed Heterogeneous Arrays
- arxiv url: http://arxiv.org/abs/2509.01399v1
- Date: Mon, 01 Sep 2025 11:50:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.672794
- Title: CabinSep: IR-Augmented Mask-Based MVDR for Real-Time In-Car Speech Separation with Distributed Heterogeneous Arrays
- Title(参考訳): CabinSep: 分散異種アレイを用いたリアルタイム車内音声分離のためのIR強化マスクベースMVDR
- Authors: Runduo Han, Yanxin Hu, Yihui Fu, Zihan Zhang, Yukai Jv, Li Chen, Lei Xie,
- Abstract要約: CabinSepは、軽量なニューラルマスクに基づく最小分散歪み無応答(MVDR)音声分離手法である。
計算複雑性は0.4 GMACしかなく、CabinSepは音声認識エラー率を17.5%削減している。
- 参考スコア(独自算出の注目度): 25.146785299787542
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Separating overlapping speech from multiple speakers is crucial for effective human-vehicle interaction. This paper proposes CabinSep, a lightweight neural mask-based minimum variance distortionless response (MVDR) speech separation approach, to reduce speech recognition errors in back-end automatic speech recognition (ASR) models. Our contributions are threefold: First, we utilize channel information to extract spatial features, which improves the estimation of speech and noise masks. Second, we employ MVDR during inference, reducing speech distortion to make it more ASR-friendly. Third, we introduce a data augmentation method combining simulated and real-recorded impulse responses (IRs), improving speaker localization at zone boundaries and further reducing speech recognition errors. With a computational complexity of only 0.4 GMACs, CabinSep achieves a 17.5% relative reduction in speech recognition error rate in a real-recorded dataset compared to the state-of-the-art DualSep model. Demos are available at: https://cabinsep.github.io/cabinsep/.
- Abstract(参考訳): 複数の話者から重なり合う音声を分離することは、人間と車両の効果的な相互作用に不可欠である。
本稿では, バックエンド自動音声認識(ASR)モデルにおける音声認識誤差を低減するために, 軽量なニューラルマスクを用いた最小分散歪み無応答(MVDR)音声分離手法であるCabinSepを提案する。
まず、チャネル情報を用いて空間的特徴を抽出し、音声とノイズマスクの推定を改善する。
第2に、推測中にMVDRを使用し、音声歪みを低減し、ASRに優しくする。
第3に、シミュレーションと実記録インパルス応答(IR)を組み合わせたデータ拡張手法を導入し、帯域境界における話者の局所化を改善し、さらに音声認識誤差を低減する。
計算複雑性は 0.4 GMAC しかなく、CabinSep は最先端の DualSep モデルと比較して、実記録データセットにおける音声認識誤り率を 17.5% 削減する。
デモは、https://cabinsep.github.io/cabinsep/.comで公開されている。
関連論文リスト
- Combining TF-GridNet and Mixture Encoder for Continuous Speech Separation for Meeting Transcription [31.774032625780414]
TF-GridNetは実残響条件下での音声分離において顕著な性能を示した。
混合エンコーダを静的な2話者シナリオから自然なミーティングコンテキストに拡張する。
実験の結果、単一のマイクを使用して、LibriCSS上での最先端のパフォーマンスが新たに向上した。
論文 参考訳(メタデータ) (2023-09-15T14:57:28Z) - Speech Diarization and ASR with GMM [0.0]
音声ダイアリゼーションは、音声ストリーム内の個々の話者の分離を含む。
ASRは未知の音声波形を対応する書き起こしに変換する。
我々の主な目的は、音声の書き起こし中にワード誤り率(WER)を最小化するモデルを開発することである。
論文 参考訳(メタデータ) (2023-07-11T09:25:39Z) - Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation
and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。
オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文 参考訳(メタデータ) (2023-07-06T10:50:46Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - Continuous Speech Separation with Ad Hoc Microphone Arrays [35.87274524040486]
音声分離は複数話者音声認識に有効であることが示された。
本稿では,このアプローチを連続音声分離に拡張する。
単一話者セグメントにおける音声問題を緩和する2つの手法を提案する。
論文 参考訳(メタデータ) (2021-03-03T13:01:08Z) - Directional ASR: A New Paradigm for E2E Multi-Speaker Speech Recognition
with Source Localization [73.62550438861942]
本稿では、指向性自動音声認識(D-ASR)と呼ばれる、エンドツーエンドのニューラルネットワーク方式で遠距離場マルチスピーカデータを処理するための新しいパラダイムを提案する。
D-ASRでは、マイクロホンアレイに対するソースの方位角を潜時変数として定義する。
論文 参考訳(メタデータ) (2020-10-30T20:26:28Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。