論文の概要: Continuous Speech Separation with Ad Hoc Microphone Arrays
- arxiv url: http://arxiv.org/abs/2103.02378v1
- Date: Wed, 3 Mar 2021 13:01:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-07 04:21:41.916502
- Title: Continuous Speech Separation with Ad Hoc Microphone Arrays
- Title(参考訳): アドホックマイクロホンアレーを用いた連続音声分離
- Authors: Dongmei Wang, Takuya Yoshioka, Zhuo Chen, Xiaofei Wang, Tianyan Zhou,
Zhong Meng
- Abstract要約: 音声分離は複数話者音声認識に有効であることが示された。
本稿では,このアプローチを連続音声分離に拡張する。
単一話者セグメントにおける音声問題を緩和する2つの手法を提案する。
- 参考スコア(独自算出の注目度): 35.87274524040486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech separation has been shown effective for multi-talker speech
recognition. Under the ad hoc microphone array setup where the array consists
of spatially distributed asynchronous microphones, additional challenges must
be overcome as the geometry and number of microphones are unknown beforehand.
Prior studies show, with a spatial-temporalinterleaving structure, neural
networks can efficiently utilize the multi-channel signals of the ad hoc array.
In this paper, we further extend this approach to continuous speech separation.
Several techniques are introduced to enable speech separation for real
continuous recordings. First, we apply a transformer-based network for
spatio-temporal modeling of the ad hoc array signals. In addition, two methods
are proposed to mitigate a speech duplication problem during single talker
segments, which seems more severe in the ad hoc array scenarios. One method is
device distortion simulation for reducing the acoustic mismatch between
simulated training data and real recordings. The other is speaker counting to
detect the single speaker segments and merge the output signal channels.
Experimental results for AdHoc-LibiCSS, a new dataset consisting of continuous
recordings of concatenated LibriSpeech utterances obtained by multiple
different devices, show the proposed separation method can significantly
improve the ASR accuracy for overlapped speech with little performance
degradation for single talker segments.
- Abstract(参考訳): 音声分離は複数話者音声認識に有効であることが示された。
配列が空間的に分散した非同期マイクロホンで構成されているアドホックマイクロホンアレイのセットアップでは、事前にマイクの数や形状が不明であるため、さらなる課題が克服される必要がある。
先行研究では、空間時間インターリーブ構造により、ニューラルネットワークはアドホックアレイのマルチチャネル信号を効率的に利用することができる。
本稿では,このアプローチをさらに継続的音声分離に拡張する。
実際の連続録音に対して音声分離を可能にする技術がいくつか紹介されている。
まず,アドホックアレイ信号の時空間モデリングにトランスフォーマネットワークを適用した。
さらに,単一話者セグメントにおける音声重複問題を軽減するため,アドホックアレーのシナリオではより厳しい2つの手法が提案されている。
1つの方法は、模擬訓練データと実記録との音響ミスマッチを低減するためのデバイス歪みシミュレーションである。
もう1つは、単一の話者セグメントを検出して出力信号チャネルをマージする話者カウントである。
複数の異なるデバイスで結合されたリブリスピーチ発話の連続記録からなる新しいデータセットであるadhoc-libicssの実験結果は、単一話者セグメントの性能劣化が少なく、重複音声のasr精度を著しく向上できることを示した。
関連論文リスト
- LibriheavyMix: A 20,000-Hour Dataset for Single-Channel Reverberant Multi-Talker Speech Separation, ASR and Speaker Diarization [31.01716151301142]
本稿では、音声分離、音声認識、話者ダイアリゼーションの研究を進めるために、大規模遠距離重畳音声データセットを提案する。
このデータセットは、マルチストーカー、リバーラント環境において、Who氏の“What and When’’”を復号するための重要なリソースである。
論文 参考訳(メタデータ) (2024-09-01T19:23:08Z) - Mixture Encoder Supporting Continuous Speech Separation for Meeting
Recognition [15.610658840718607]
音声分離によって導入された人工物の効果を緩和する混合エンコーダを提案する。
このアプローチを、任意の数の話者と動的重複を含む、より自然なミーティングコンテキストに拡張する。
実験では、LibriCSSデータセット上での最先端のパフォーマンスを示し、混合エンコーダの利点を強調した。
論文 参考訳(メタデータ) (2023-09-15T14:57:28Z) - Multi-microphone Automatic Speech Segmentation in Meetings Based on
Circular Harmonics Features [0.0]
円形高調波領域(CH-DOA)の方向推定に基づく新しい空間的特徴セットを提案する。
AMIミーティングコーパスの実験では、CH-DOAは非活性化マイクロホンの場合の堅牢さを保ちながらセグメンテーションを改善することができる。
論文 参考訳(メタデータ) (2023-06-07T09:09:00Z) - Multi-Dimensional and Multi-Scale Modeling for Speech Separation
Optimized by Discriminative Learning [9.84949849886926]
音声分離のためのSE変換器とISCIT(Intra-SE-Conformer and Inter-Transformer)
新しいネットワークSE-Conformerは、複数の次元とスケールでオーディオシーケンスをモデル化できる。
論文 参考訳(メタデータ) (2023-03-07T08:53:20Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - VarArray: Array-Geometry-Agnostic Continuous Speech Separation [26.938313513582642]
マイクロホンアレイを用いた連続音声分離は、自然な会話の書き起こしにおける音声重なり問題に対処する上で有望であることが示された。
本稿では,アレージオメトリーに依存しない音声分離ニューラルネットワークモデルであるVarArrayを提案する。
論文 参考訳(メタデータ) (2021-10-12T05:31:46Z) - Multi-Channel End-to-End Neural Diarization with Distributed Microphones [53.99406868339701]
EENDのTransformerエンコーダを,マルチチャネル入力を処理する2種類のエンコーダに置き換える。
また,単一チャンネル記録のみを用いたモデル適応手法を提案する。
論文 参考訳(メタデータ) (2021-10-10T03:24:03Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - Multi-microphone Complex Spectral Mapping for Utterance-wise and
Continuous Speech Separation [79.63545132515188]
残響条件下での話者分離のためのマルチマイクロホン複合スペクトルマッピングを提案する。
本システムは,所定の形状に配置された固定数のマイクロホンに基づいて,室内インパルス応答のシミュレーションに基づいて学習する。
シミュレーションされたSMS-WSJコーパスと実記録したLibriCSSデータセット上で,最先端の分離性能が得られる。
論文 参考訳(メタデータ) (2020-10-04T22:13:13Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。