論文の概要: SpatialEmb: Extract and Encode Spatial Information for 1-Stage Multi-channel Multi-speaker ASR on Arbitrary Microphone Arrays
- arxiv url: http://arxiv.org/abs/2601.18037v1
- Date: Sun, 25 Jan 2026 23:21:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.592504
- Title: SpatialEmb: Extract and Encode Spatial Information for 1-Stage Multi-channel Multi-speaker ASR on Arbitrary Microphone Arrays
- Title(参考訳): SpaceEmb: 任意マイクロホンアレイ上の1段階マルチチャンネルASRのための空間情報の抽出と符号化
- Authors: Yiwen Shao, Yong Xu, Sanjeev Khudanpur, Dong Yu,
- Abstract要約: 本研究では,ASRモデルに対して直接空間情報を抽出し,エンコードするSpatialEmbという軽量な埋め込みモジュールを提案する。
我々は、SpatialEmbの最適モデル設計を決定するために、実際のミーティングコーパスであるAliMeetingの包括的な実験を行う。
105時間でトレーニングした最良のモデルは、EvalとTestセットで17.04%と20.32%の文字エラー率(CER)を達成する。
- 参考スコア(独自算出の注目度): 45.93777164579776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatial information is a critical clue for multi-channel multi-speaker target speech recognition. Most state-of-the-art multi-channel Automatic Speech Recognition (ASR) systems extract spatial features only during the speech separation stage, followed by standard single-channel ASR on the separated speech. This approach results in an inefficient, lengthy pipeline and sub-optimal ASR performance due to the accumulated errors from preprocessing modules. Furthermore, most spatial feature extraction methods depend on the knowledge of speaker positions and microphone topology, making the systems reliant on specific settings and challenging to adapt to new equipment. In this work, we propose a solution to these issues with a lightweight embedding module named SpatialEmb, which extracts and encodes spatial information directly for the ASR model, supporting both fixed and arbitrary microphone topology. We conduct comprehensive experiments on AliMeeting, a real meeting corpus, to determine the optimal model design for SpatialEmb in terms of both performance and efficiency. Our best model trained with 105 hours Train-Ali-far achieves 17.04% and 20.32% character error rates (CER) on the Eval and Test sets, establishing a new state-of-the-art result with the same training data.
- Abstract(参考訳): 空間情報は多チャンネル多話者ターゲット音声認識における重要な手がかりである。
多くの最先端マルチチャネル音声認識(ASR)システムは、音声分離段階でのみ空間的特徴を抽出し、その後、分離された音声上で標準の単一チャネル音声認識を行う。
このアプローチにより、前処理モジュールからのエラーの蓄積により、非効率で長いパイプラインと準最適ASR性能が得られる。
さらに、ほとんどの空間的特徴抽出法は、話者位置やマイクロホントポロジの知識に依存しており、システムは特定の設定に依存し、新しい機器に適応することを困難にしている。
本研究では,ASRモデルの空間情報を直接抽出・符号化するSpatialEmbという軽量な埋め込みモジュールを用いて,固定および任意のマイクロホントポロジーをサポートする手法を提案する。
実会議コーパスであるAliMeetingの総合的な実験を行い、性能と効率の両面からSpatialEmbの最適モデル設計を決定する。
105時間のTrain-Ali-farでトレーニングした最良のモデルは、EvalとTestセットで17.04%と20.32%の文字エラー率(CER)を獲得し、同じトレーニングデータで新たな最先端結果を確立しました。
関連論文リスト
- LibriheavyMix: A 20,000-Hour Dataset for Single-Channel Reverberant Multi-Talker Speech Separation, ASR and Speaker Diarization [31.01716151301142]
本稿では、音声分離、音声認識、話者ダイアリゼーションの研究を進めるために、大規模遠距離重畳音声データセットを提案する。
このデータセットは、マルチストーカー、リバーラント環境において、Who氏の“What and When’’”を復号するための重要なリソースである。
論文 参考訳(メタデータ) (2024-09-01T19:23:08Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Exploring the Integration of Speech Separation and Recognition with
Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。
我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。
TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文 参考訳(メタデータ) (2023-07-23T05:39:39Z) - Mixture Encoder for Joint Speech Separation and Recognition [15.13598115379631]
マルチ話者自動音声認識は多くの実世界のアプリケーションにとって不可欠である。
既存のアプローチは、モジュラーとエンドツーエンドのメソッドに分けられる。
エンドツーエンドモデルでは、重複した音声を直接単一の強力なニューラルネットワークで処理する。
論文 参考訳(メタデータ) (2023-06-21T11:01:31Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - The RoyalFlush System of Speech Recognition for M2MeT Challenge [5.863625637354342]
本稿では,M2MeTチャレンジにおけるマルチスピーカ自動音声認識(ASR)の追跡のためのRoyalFlushシステムについて述べる。
大規模シミュレーションデータを用いたシリアライズアウトプットトレーニング(SOT)に基づくマルチスピーカASRシステムを採用した。
我々のシステムでは、検証セットでは12.22%の絶対文字誤り率(CER)が、テストセットでは12.11%が削減された。
論文 参考訳(メタデータ) (2022-02-03T14:38:26Z) - Multi-Channel Multi-Speaker ASR Using 3D Spatial Feature [35.280174671205046]
本稿では,3次元空間におけるターゲット話者の位置情報を初めて活用することによって,課題を考察する。
2つのパラダイムについて検討した。1) 多チャンネル音声分離モジュールを備えたパイプラインシステムと,1)最先端の単一チャネルASRモジュール,2)3次元空間特徴を直接ASRシステムへの入力として使用する「オール・イン・ワン」モデルである。
実験結果から,1)提案したALL-In-Oneモデルは,推定時間を半分に減らしながら,パイプラインシステムに匹敵する誤差率を達成した。
論文 参考訳(メタデータ) (2021-11-22T07:19:12Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。