論文の概要: Multi-channel multi-speaker transformer for speech recognition
- arxiv url: http://arxiv.org/abs/2601.02688v1
- Date: Tue, 06 Jan 2026 03:46:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.791046
- Title: Multi-channel multi-speaker transformer for speech recognition
- Title(参考訳): 音声認識のためのマルチチャンネルマルチスピーカトランス
- Authors: Guo Yifan, Tian Yao, Suo Hongbin, Wan Yulong,
- Abstract要約: 遠方界マルチスピーカASRのためのマルチチャネルマルチスピーカトランス (M2Former) を提案する。
M2Formerは、Transform-average-concatenateとマルチチャネルディープクラスタリングに基づくエンドツーエンドシステムを備えた、ニューラルビームフォーマ、MCT、デュアルパスRNNより優れている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the development of teleconferencing and in-vehicle voice assistants, far-field multi-speaker speech recognition has become a hot research topic. Recently, a multi-channel transformer (MCT) has been proposed, which demonstrates the ability of the transformer to model far-field acoustic environments. However, MCT cannot encode high-dimensional acoustic features for each speaker from mixed input audio because of the interference between speakers. Based on these, we propose the multi-channel multi-speaker transformer (M2Former) for far-field multi-speaker ASR in this paper. Experiments on the SMS-WSJ benchmark show that the M2Former outperforms the neural beamformer, MCT, dual-path RNN with transform-average-concatenate and multi-channel deep clustering based end-to-end systems by 9.2%, 14.3%, 24.9%, and 52.2% respectively, in terms of relative word error rate reduction.
- Abstract(参考訳): 遠隔会議や車内音声アシスタントの発展に伴い、遠距離多話者音声認識がホットな研究トピックとなっている。
近年,遠距離場音響環境をモデル化する多チャンネルトランス (MCT) が提案されている。
しかし、MCTは話者間の干渉のため、混合入力音声から各話者の高次元音響特徴を符号化できない。
そこで本稿では,遠距離場マルチスピーカASRのためのマルチチャネルマルチスピーカトランス (M2Former) を提案する。
SMS-WSJベンチマークの実験では、M2Formerは、平均的な変換とマルチチャネルのディープクラスタリングに基づくエンド・ツー・エンドシステムにおいて、相対的な単語エラー率の減少から、それぞれ9.2%、14.3%、24.9%、52.2%で、ニューラルビームフォーマ、MCT、デュアルパスRNNを上回っている。
関連論文リスト
- End-to-end Multichannel Speaker-Attributed ASR: Speaker Guided Decoder
and Input Feature Analysis [0.0]
本稿では,Conformerベースのエンコーダと多フレームのクロスチャネルアテンションと,話者対応のTransformerベースのデコーダを組み合わせた,エンドツーエンドのマルチチャネル話者分散自動音声認識(MC-SA-ASR)システムを提案する。
論文 参考訳(メタデータ) (2023-10-16T06:40:18Z) - The Volcspeech system for the ICASSP 2022 multi-channel multi-party
meeting transcription challenge [18.33054364289739]
本稿ではICASSP 2022 Multi-channel Multi-party Meeting Transcription (M2MeT) Challengeについて述べる。
トラック1では,クラスタリングに基づく話者ダイアリゼーションシステムを実現するために,いくつかのアプローチを提案する。
トラック2では,コンバータモデルを用いた共同CTCアテンションアーキテクチャを用いたシステムを開発した。
論文 参考訳(メタデータ) (2022-02-09T03:38:39Z) - Multi-Channel End-to-End Neural Diarization with Distributed Microphones [53.99406868339701]
EENDのTransformerエンコーダを,マルチチャネル入力を処理する2種類のエンコーダに置き換える。
また,単一チャンネル記録のみを用いたモデル適応手法を提案する。
論文 参考訳(メタデータ) (2021-10-10T03:24:03Z) - Multi-Channel Transformer Transducer for Speech Recognition [15.268402294151468]
本稿では,新しい音声認識モデルであるMulti-Channel Transformer Transducer(MCTT)を提案する。
MCTTは、エンドツーエンドのマルチチャネルトレーニング、低コスト、低レイテンシを備えており、オンデバイス音声認識におけるストリーミングデコーディングに適している。
論文 参考訳(メタデータ) (2021-08-30T01:50:51Z) - MultiSpeech: Multi-Speaker Text to Speech with Transformer [145.56725956639232]
Transformer-based text to speech (TTS)モデル(Transformer TTSciteli 2019neural, FastSpeechciteren 2019fastspeech)は、RNNベースのモデルよりもトレーニングと推論効率の利点を示している。
我々はMultiSpeechと呼ばれる堅牢で高品質なマルチスピーカトランスフォーマーTSシステムを開発した。
論文 参考訳(メタデータ) (2020-06-08T15:05:28Z) - Identify Speakers in Cocktail Parties with End-to-End Attention [48.96655134462949]
本稿では,音声ソース抽出と話者識別を統合したエンドツーエンドシステムを提案する。
本稿では,チャネル次元に沿って話者予測を最大にすることで,これら2つの部分を協調的に最適化する方法を提案する。
エンドツーエンドのトレーニングは、99.9%の精度と93.9%の精度で2話者放送音声の1つの話者を認識するシステムである。
論文 参考訳(メタデータ) (2020-05-22T22:15:16Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z) - End-to-End Multi-speaker Speech Recognition with Transformer [88.22355110349933]
音声認識モデルにおけるRNNベースのエンコーダデコーダをトランスフォーマーアーキテクチャに置き換える。
また、計算量を削減するために、シーケンス全体ではなくセグメントに制限されるセルフアテンションコンポーネントを変更します。
論文 参考訳(メタデータ) (2020-02-10T16:29:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。