論文の概要、ライセンス

# (参考訳) アドホックマイクロホンアレーを用いた連続音声分離 [全文訳有]

Continuous Speech Separation with Ad Hoc Microphone Arrays ( http://arxiv.org/abs/2103.02378v1 )

ライセンス: CC BY 4.0
Dongmei Wang, Takuya Yoshioka, Zhuo Chen, Xiaofei Wang, Tianyan Zhou, Zhong Meng(参考訳) 音声分離は複数話者音声認識に有効であることが示された。 配列が空間的に分散した非同期マイクロホンで構成されているアドホックマイクロホンアレイのセットアップでは、事前にマイクの数や形状が不明であるため、さらなる課題が克服される必要がある。 先行研究では、空間時間インターリーブ構造により、ニューラルネットワークはアドホックアレイのマルチチャネル信号を効率的に利用することができる。 本稿では,このアプローチをさらに継続的音声分離に拡張する。 実際の連続録音に対して音声分離を可能にする技術がいくつか紹介されている。 まず,アドホックアレイ信号の時空間モデリングにトランスフォーマネットワークを適用した。 さらに,単一話者セグメントにおける音声重複問題を軽減するため,アドホックアレーのシナリオではより厳しい2つの手法が提案されている。 1つの方法は、模擬訓練データと実記録との音響ミスマッチを低減するためのデバイス歪みシミュレーションである。 もう1つは、単一の話者セグメントを検出して出力信号チャネルをマージする話者カウントである。 複数の異なるデバイスで結合されたリブリスピーチ発話の連続記録からなる新しいデータセットであるadhoc-libicssの実験結果は、単一話者セグメントの性能劣化が少なく、重複音声のasr精度を著しく向上できることを示した。

Speech separation has been shown effective for multi-talker speech recognition. Under the ad hoc microphone array setup where the array consists of spatially distributed asynchronous microphones, additional challenges must be overcome as the geometry and number of microphones are unknown beforehand. Prior studies show, with a spatial-temporalinte rleaving structure, neural networks can efficiently utilize the multi-channel signals of the ad hoc array. In this paper, we further extend this approach to continuous speech separation. Several techniques are introduced to enable speech separation for real continuous recordings. First, we apply a transformer-based network for spatio-temporal modeling of the ad hoc array signals. In addition, two methods are proposed to mitigate a speech duplication problem during single talker segments, which seems more severe in the ad hoc array scenarios. One method is device distortion simulation for reducing the acoustic mismatch between simulated training data and real recordings. The other is speaker counting to detect the single speaker segments and merge the output signal channels. Experimental results for AdHoc-LibiCSS, a new dataset consisting of continuous recordings of concatenated LibriSpeech utterances obtained by multiple different devices, show the proposed separation method can significantly improve the ASR accuracy for overlapped speech with little performance degradation for single talker segments.
公開日: Wed, 3 Mar 2021 13:01:08 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Continuous Speech Separation with Ad Hoc Ad Hocを用いた連続音声分離 0.78
Dongmei Wang, Takuya Yoshioka, Zhuo Chen, Xiaofei Wang, Tianyan Zhou, Zhong Meng 王東明、吉岡沢也、陳周、Xiaofei Wang、Tianyan Zhou、Zhong Meng 0.70
Microphone Arrays Microsoft, Redmond, WA, USA Microsoft, Redmond, WA, USA, マイクロフォンアレイ 0.90
{dowan, tayoshio, zhuc, xiaofewa, tizhou, zhme}@microsoft.com dowan, tayoshio, zhuc, xiaofewa, tizhou, zhme}@microsoft.com 0.86
1 2 0 2 r a M 3 ] D S . 1 2 0 2 r a m 3 ] d s である。 0.81
s c [ 1 v 8 7 3 2 0 . s c [ 1 v 8 7 3 2 0 . 0.85
3 0 1 2 : v i X r a 3 0 1 2 : v i X r a 0.85
Abstract—Speech separation has been shown effective for multi-talker speech recognition. abstract-speech separationはマルチトーカー音声認識に有効であることが示されている。 0.60
Under the ad hoc microphone array setup where the array consists of spatially distributed asynchronous microphones, additional challenges must be overcome as the geometry and number of microphones are unknown beforehand. 配列が空間的に分散した非同期マイクロホンで構成されているアドホックマイクロホンアレイのセットアップでは、事前にマイクの数や形状が不明であるため、さらなる課題が克服される必要がある。 0.66
Prior studies show, with a spatial-temporalinte rleaving structure, neural networks can efficiently utilize the multi-channel signals of the ad hoc array. 先行研究では、空間時間インターリーブ構造により、ニューラルネットワークはアドホックアレイのマルチチャネル信号を効率的に利用することができる。 0.75
In this paper, we further extend this approach to continuous speech separation. 本稿では,このアプローチをさらに継続的音声分離に拡張する。 0.77
Several techniques are introduced to enable speech separation for real continuous recordings. 実際の連続録音に対して音声分離を可能にする技術がいくつか紹介されている。 0.51
First, we apply a transformer-based network for spatio-temporal modeling of the ad hoc array signals. まず,アドホックアレイ信号の時空間モデリングにトランスフォーマネットワークを適用した。 0.61
In addition, two methods are proposed to mitigate a speech duplication problem during single talker segments, which seems more severe in the ad hoc array scenarios. さらに,単一話者セグメントにおける音声重複問題を軽減するため,アドホックアレーのシナリオではより厳しい2つの手法が提案されている。 0.85
One method is device distortion simulation for reducing the acoustic mismatch between simulated training data and real recordings. 1つの方法は、模擬訓練データと実記録との音響ミスマッチを低減するためのデバイス歪みシミュレーションである。 0.72
The other is speaker counting to detect the single speaker segments and merge the output signal channels. もう1つは、単一の話者セグメントを検出して出力信号チャネルをマージする話者カウントである。 0.71
Experimental results for AdHoc-LibiCSS, a new dataset consisting of continuous recordings of concatenated LibriSpeech utterances obtained by multiple different devices, show the proposed separation method can significantly improve the ASR accuracy for overlapped speech with little performance degradation for single talker segments. 複数の異なるデバイスで結合されたリブリスピーチ発話の連続記録からなる新しいデータセットであるadhoc-libicssの実験結果は、単一話者セグメントの性能劣化が少なく、重複音声のasr精度を著しく向上できることを示した。 0.80
Index Terms—ad hoc microphone array, speech separation, spatially distributed microphones, speaker counting index terms—ad hoc microphone array, speech separation, spatially distributed microphones, speaker counting 0.95
I. INTRODUCTION In multi-talker automatic speech recognition (ASR), speech separation plays a critical role for improving the recognition accuracy since conventional ASR systems cannot handle overlapped speech. 私。 導入 マルチストーカー自動音声認識(ASR)では,従来の音声認識システムでは重畳音声を処理できないため,音声認識精度の向上に重要な役割を担っている。 0.62
While a microphone array with a known geometry has been widely used for far-field speech separation [1]–[4], some attempts have recently been made to utilize ad hoc microphone arrays for speech separation and overlapped speech recognition [5]–[8]. 遠距離音場分離 [1]-[4] には、既知の形状を持つマイクロホンアレイが広く用いられているが、近年、アドホックマイクロホンアレイを用いて音声分離と重なり合う音声認識 [5]-[8] を行う試みが行われている。 0.73
Compared with the fixed microphone array, the ad hoc microphone array comprising multiple independent recording devices, provides more flexibility and allows users to use their own mobile devices, such as cellphones or laptops, to virtually form the microphone array system. 固定マイクロホンアレイと比較して、複数の独立した記録装置からなるアドホックマイクロホンアレイは、より柔軟性を提供し、携帯電話やラップトップなどの独自のモバイルデバイスを使用して、マイクロホンアレイシステムを事実上形成することができる。 0.72
Moreover, the distributed devices can cover a wider space and thus provide more spatial diversity, which may be leveraged by the speech separation algorithms. さらに、分散デバイスはより広い空間をカバーし、より空間的な多様性を提供できるため、音声分離アルゴリズムによって活用することができる。 0.73
There are two major challenges that arise from using the ad hoc arrays. アドホックアレイの使用によって生じる2つの大きな課題がある。 0.64
One is the input permutation problem where the number and spatial arrangement of the microphones are unknown and unfixed. 1つは、マイクの数と空間配置が不明で固定されていない入力置換問題です。 0.69
The other is that the individual microphone signals are asynchronous, which can be largely solved with cross-correlation-ba sed approaches [9]–[11]. もうひとつは、個々のマイクロホン信号が非同期であり、相互相関に基づくアプローチ [9]–[11] で大きく解決できるということです。 0.77
To handle the input permutation problem, a spatial-temporal-int erleaving (STI) neural network architecture was proposed [5]. 扱い方 The input permutation problem, a spatial-temporal-int erleaving (STI) neural network architecture was proposed [5]。 0.72
This network models the spatial and temporal correlation by stacking cross-channel self-attention layers and cross-frame BLSTM layers alternately. このネットワークは、クロスチャネル自己アテンション層とクロスフレームBLSTM層を交互に積み重ねることで空間的および時間的相関をモデル化する。 0.60
In [6], a guided source separation method was applied to the ad hoc array-based separation by using speaker diarization results, where a duplicate word reduction method was also proposed. 6]では、話者ダイアリゼーション結果を用いてアドホックアレイを用いた音源分離に誘導音源分離法を適用し、重複単語削減法も提案した。 0.72
In [8], an ad hoc arraybased target speech extraction was proposed by selecting 1best or N-best channels for beamforming. 8]では,ビームフォーミングのための1チャンネルまたはnチャンネルを選択することで,アドホックアレイを用いた目標音声抽出を提案する。
訳抜け防止モード: アドホックアレイを用いたターゲット音声抽出法が提案された [8 ] 1best または N - ビームフォーミングに最適なチャネルを選択する。
0.71
Transform-averagecon catenate [12] and a two stage-based method [13] were proposed for spatially unconstrained microphone arrays, but they were only evaluated with simulated data. 空間的に制約のないマイクロホンアレイに対してTransform-averagecon catenate [12]と2段階に基づく手法 [13] が提案されたが, シミュレーションデータでのみ評価された。 0.73
The previously proposed methods share a limitation that they require prior knowledge of utterance boundaries, which were often obtained from ground truth labels. 従来提案された手法は、しばしば真理ラベルから得られる発話境界に関する事前の知識を必要とするという制限を共有している。 0.66
However, in a realistic conversation scenario, the boundary information of overlapped speech is not easily obtainable. しかし,現実的な会話シナリオでは,重なり合う音声の境界情報は容易には得られない。 0.84
While [6] used a speaker diarization system to acquire the utterance boundaries, it was based on offline processing whereas streaming processing is desired in many applications. 6]は発話境界を得るために話者ダイアリゼーションシステムを用いたが、多くのアプリケーションでストリーミング処理が望ましいのに対して、オフライン処理に基づいている。 0.81
In addition, in conversations, the speech overlap happens only occasionally. さらに、会話では、スピーチの重複は時折のみ起こります。 0.73
Therefore, the separation system must not only deal with the overlapped speech but also preserve the speech quality for single speaker regions so as not to degrade the ASR accuracy. したがって、分離システムは重なり合う音声に対処するだけでなく、ASRの精度を低下させないために、単一話者領域の音声品質を保たなければならない。 0.75
In this paper, we apply continuous speech separation (CSS) to the ad hoc microphone array setup. 本稿では,連続音声分離(CSS)をアドホックマイクロホンアレイ設定に適用する。 0.63
Previously, CSS was used for fixed microphone arrays [14], [15] and a single microphone setting [4], [16] to deal with real conversations. 以前は、CSSは固定マイク配列 [14], [15] と1つのマイク設定 [4], [16] に使われ、実際の会話に対処していた。 0.82
It outputs a fixed number (typically two) of audio channels, where each output channel contains at most one active speaker at any time. オーディオチャンネルの固定番号(典型的には2つ)を出力し、各出力チャンネルはいつでも少なくとも1つのアクティブスピーカーを含む。 0.84
When the input contains two overlapping utterances, CSS must separate them and emit the separated signals from different output channels. 入力が2つの重なり合う発話を含む場合、cssはそれらを分離し、異なる出力チャネルから分離した信号を出力しなければならない。 0.62
For segments with no speaker overlaps, the incoming speech should be routed to one of the output channels, while the other output channels produce zero or negligible noise. スピーカーが重複しないセグメントの場合、着信音声は出力チャンネルの1つにルーティングされ、他の出力チャンネルはゼロまたは無視可能なノイズを生成します。 0.82
For conversation transcription, a conventional recognition system can be simply applied to each output signal to enable multi-talker ASR. 会話の書き起こしには、従来の認識システムが各出力信号に簡単に適用でき、マルチトーカーASRを有効にすることができる。
訳抜け防止モード: 会話音声認識では、従来の認識システムは各出力信号に単純に適用できる マルチトーカーasrを実現する。
0.74
Three additional steps are proposed to address ad hoc arraybased CSS challenges. アドホック配列ベースのCSS課題に対処する3つの追加ステップが提案されている。 0.52
A transformer-based architecture is adopted to model the spatial and temporal correlation of the ad hoc array signals. アドホックアレイ信号の空間的および時間的相関をモデル化するために、トランスフォーマーに基づくアーキテクチャを採用する。 0.67
Moreover, two methods are introduced to mitigate the duplicate speech problem [4], [6] in single speaker regions, which becomes severe especially when the さらに,単話者領域における重複発声問題 [4] と [6] の軽減のために2つの方法が導入された。 0.76
英語(論文から抽出)日本語訳スコア
array consists of different microphones. 配列は異なるマイクロホンで構成されている。 0.58
One is based on data augmentation using device distortion simulation to mimic the acoustic variations of different devices and thereby reduce the mismatch between training data and real recordings. 1つは、デバイス歪みシミュレーションを用いて異なるデバイスの音響変動を模倣し、トレーニングデータと実際の記録とのミスマッチを低減するデータ拡張に基づいている。 0.78
Also, speaker counting is applied to merge the CSS output channels into one if only one speaker is detected. また、1つのスピーカーだけが検出された場合、CSS出力チャネルを1つにマージするためにスピーカカウントが適用されます。
訳抜け防止モード: また、話者数も適用される。 css出力チャネルを1つのスピーカのみを検出する場合に1つにマージする。
0.69
To enable ad hoc array-based CSS evaluation, we collected a new dataset of long-form multi-talker audio with different consumer devices including cell phones and laptops, which we call AdHoc-LibriCSS. アドホックアレーベースのCSS評価を実現するために,携帯電話やラップトップなど,さまざまなコンシューマデバイスを用いた長めのマルチトーカーオーディオのデータセットを収集し,AdHoc-LibriCSSと呼ぶ。 0.70
As with LibriCSS [15], LibriSpeech [17] utterances were concatenated and played back in different conference rooms from multiple loudspeakers to create meeting-like audio files. LibriCSS [15]と同様に、LibriSpeech [17]の発話は結合され、複数のスピーカーの異なる会議室で再生され、会議のようなオーディオファイルを作成しました。 0.71
Experimental results using this dataset are reported. このデータセットを用いた実験結果を報告する。 0.67
II. CONTINUOUS SPEECH SEPARATION WITH AD HOC II。 ADホックによる連続音声分離 0.62
MICROPHONE ARRAYS A. マイクロホンアレイ A。 0.64
Continuous speech separation The CSS framework [14], [15], [18] attempts to cope with a long-form input signal including multiple partially overlapped or non-overlapped utterances in a streaming fashion. 連続音声分離 CSS フレームワーク [14], [15], [18] は、複数の部分重複またはオーバーラップしない発話を含む長い形式の入力信号をストリーミング方式で処理しようと試みている。 0.82
It is based on an observation that, most of the time, there are only one or two simultaneously active speakers in meeting conversations. ほとんどの場合、会議の会話には1人または2人のアクティブスピーカーしかいないという観察に基づいています。 0.76
CSS applies a sliding window to the input signal and performs separation within each window to produce a fixed number of separated signals (two in our experiments). CSSは入力信号にスライディングウィンドウを適用し、各ウィンドウ内で分離を行い、固定数の分離信号(実験では2つ)を生成する。 0.82
The window size and the window shift we use are 4s and 2s, respectively. 使用するウィンドウサイズとウィンドウシフトはそれぞれ4sと2sです。 0.69
To make the output signal order consistent with that of the previous window position, the Euclidean distance is calculated between the separated signals of the current and previous windows over the overlapped frames between the two window positions for all possible output permutations. 出力信号順序を以前のウィンドウ位置と整合させるために、2つのウィンドウ位置間の重なり合うフレーム上の電流と前のウィンドウの分離信号間のユークリッド距離を計算し、可能な出力置換を全て行う。 0.85
The output order with the lowest distance is then selected. 次に、最も低い距離の出力順序を選択します。 0.69
The separated signals are then concatenated with overlap-add technique. 分離された信号は重なり加法で結合される。 0.66
B. Transformer-based spatio-temporal modeling Fig. B.トランスフォーマーに基づく時空間モデリング図 0.66
1 shows the overall architecture and the spatio-temporal processing block of our separation model. 図1は、分離モデルの全体的なアーキテクチャと時空間処理ブロックを示しています。 0.70
The model consists of stacked spatio-temporal processing blocks, which adopts a transformer-based (or more precisely transformer encoderbased) architecture [19]. このモデルは、積み重ねられた時空間処理ブロックで構成されており、トランスベース(またはより正確にトランスフォーマエンコーダベース)アーキテクチャ [19] を採用している。 0.59
The input to the separation model is a three-dimensional tensor comprising a multi-channel amplitude spectrogram, followed by global normalization [5]. 分離モデルへの入力は、マルチチャネル振幅スペクトログラムからなる3次元テンソルであり、次にグローバル正規化[5]である。 0.79
In the spatio-temporal processing block, a cross-channel selfattention layer exploits nonlinear spatial correlation between different channels and was shown effective in [5]. 時空間処理ブロックでは,異なるチャネル間の非線形空間相関を利用して,[5]で有効であった。 0.75
A crossframe self-attention layer allows the network to efficiently capture a long-range acoustic context [16], [20], [21]. クロスフレーム自己照準層により、ネットワークは長距離音響コンテキスト[16],[20],[21]を効率的に捉えることができる。 0.77
After mean pooling-based global channel fusion, two BLSTM layers are further added to model the temporal correlation of the consolidated signals. 平均プールベースグローバルチャネル融合後、統合信号の時間的相関をモデル化するために、さらに2つのBLSTM層を追加する。 0.72
Finally, two frequency domain masks are obtained with linear projection followed by ReLU activation. 最後に、2つの周波数領域マスクが線形投影され、続いてReLUが活性化される。 0.57
C. Channel selection the signal-toIn the ad hoc microphone array setting, noise ratio (SNR) may vary significantly across channels due C. チャネル選択における信号-to-アドホックマイクロホンアレイの設定では、ノイズ比(SNR)はチャネル間で異なる。 0.77
Fig. 1. Overall separation model structure. フィギュア。 1. 全体的な分離モデル構造。 0.69
to the differences in microphone characteristics as well as the large distances between different devices. 異なるデバイス間の大きな距離だけでなく、マイクロホン特性の差異にも対処する。 0.84
Therefore, the masks estimated for each speaker should be appplied to an appropriate channel. 従って、各スピーカーのために推定されるマスクは適切なチャネルに割り当てられるべきです。 0.74
We perform channel selection based on posterior SNR estimation [5], [22] for each CSS window. 各CSSウィンドウに対して,後続SNR推定[5],[22]に基づいてチャネル選択を行う。 0.81
We directly apply the separation masks to the signals of the selected channels instead of enhansing the signals with maskbased beamforming [23], [24]. マスクベースのビームフォーミング[23],[24]で信号を増幅する代わりに、選択したチャネルの信号に分離マスクを直接適用する。 0.76
This is based on our informal observation that people often pick up their phones during meetings, making beamforming challenging. これは私達の非公式な観察に基づいており、人々は会議中にしばしば携帯電話を拾い、ビームフォーミングを困難にしている。
訳抜け防止モード: これは我々の非公式な観察に基づいている。 人々は会議中に電話を受け取り ビームフォーミングを困難にします
0.64
III. ADDRESSING SPEECH DUPLICATING PROBLEM In real meetings, single speaker regions occupy most of the meeting time [25]. III。 ADDRESSING SPEECH DUPLICING PROBLEM 実際のミーティングでは、単一のスピーカーリージョンがミーティング時間の大部分を占めます[25]。 0.76
Therefore, it is crucial for speech separation systems to preserve the audio quality for the single speaker regions while performing speech separation for the overlapped regions. したがって、重複領域に対して音声分離を行いながら、単一話者領域の音声品質を維持することが音声分離システムにとって重要である。 0.79
Models trained with permutation invariant training (PIT) [26] tend to generate zero signals when there are fewer speakers than the model’s output channels [1]. PIT(permutation Invariant Training) [26]で訓練されたモデルは、モデルの出力チャネルよりもスピーカーが少ない場合、ゼロ信号を生成する傾向があります[1]。 0.85
However, in the ad hoc microphone array settings, we observed that a resultant model still sometimes generated two output signals for a single speaker voice even when trained on both single- and multitalker segments. しかし,アドホックマイクロホンのアレー設定では,単一話者音声に対して,単一話者セグメントと複数話者セグメントの両方で訓練しても,結果モデルが2つの出力信号を生成する場合があった。 0.76
This results in a high insertion error rate for ASR. これにより、asrへの挿入エラー率が高くなる。 0.60
This problem is more severe for the ad hoc microphone arrays as the same single speaker voice captured by different microphones can be acoustically very different. この問題は、異なるマイクロホンでキャプチャされた同じ単一話者音声が音響的に非常に異なるため、アドホックなマイクロホンアレイではより深刻である。 0.68
We describe two methods for avoiding the duplicate speech problem: device distortion simulation and speaker counting. 重複音声問題を回避する方法として,デバイス歪みシミュレーションとスピーカカウントの2つを挙げる。
訳抜け防止モード: 2つの方法を紹介します 重複音声問題を回避する : デバイス歪みシミュレーションと話者カウント
0.78
A. Data augmentation with device distortion simulation Device distortion simulation is a data augmentation scheme to reduce the mismatch between simulated training data and real multi-channel recordings obtained with different devices. A。 デバイス歪みシミュレーションによるデータ拡張 デバイス歪みシミュレーションは、異なるデバイスで得られた実マルチチャネル記録とシミュレーションされたトレーニングデータとのミスマッチを低減するデータ拡張スキームである。 0.78
英語(論文から抽出)日本語訳スコア
The device distortion simulation consists of three steps: bandpass filtering, waveform amplitude clipping, and delay perturbation. デバイス歪みシミュレーションは、帯域通過フィルタリング、波形振幅クリッピング、遅延摂動の3段階からなる。 0.75
Each step involves variable parameters, which are randomly chosen within a pre-set range for each microphone. 各ステップには、各マイクのプリセット範囲内でランダムに選択される可変パラメータが含まれます。 0.77
The implementation details are described in Sec. 実装の詳細はsecで説明されている。 0.51
IV-B. B. Output signal merger based on speaker counting To further mitigate the speaker duplication issue, we apply speaker counting in each CSS processing window. IV-B。 B。 話者カウントに基づく出力信号の合併 話者重複問題をさらに軽減するため、各CSS処理ウィンドウで話者カウントを適用します。 0.71
When zero or one speaker is detected, the output signals of the separation model are merged into either one of the output channels by taking their sum. ゼロまたは1つの話者が検出されると、分離モデルの出力信号を合計して出力チャネルのいずれかにマージする。 0.79
We then produce a zero signal from the other channel. すると、他のチャネルからゼロ信号を生成する。 0.79
The speaker counting is performed by using a randomly chosen one channel signal to avoid speaker counting errors caused by the data mismatch between multi-channel simulated training data and real recordings. 話者カウントは、ランダムに選択された1つのチャンネル信号を用いて、マルチチャネルシミュレーショントレーニングデータと実記録との間のデータミスマッチに起因する話者カウントエラーを回避する。 0.78
A transformer-BLSTM model similar to the speech separatio model is trained for speaker counting. 音声分離モデルに類似した変換器-BLSTMモデルを話者カウントのために訓練する。 0.72
The model structure is the same as Fig 1 except that the speaker counting model does not have cross-channel self-attention layers as it is based on a single channel input. モデル構造はfig1と同じであるが、単一のチャネル入力に基づいているため、話者カウントモデルにはチャネル間自己接続層が存在しない。 0.74
The model input is an STFT of a randomly chosen single-channel signal. モデル入力はランダムに選択された単チャンネル信号のSTFTである。 0.79
The model generates a frame-level speaker counting signal. モデルがフレームレベルスピーカ計数信号を生成する。 0.82
We examine two output types for speaker counting. 話者カウントのための2つの出力タイプを検討する。 0.59
One model, which we call s1 in the experiment section, has a two-output linear layer followed by sigmoid nonlinearity for voice activity detection (VAD) for each speaker. 実験部でs1と呼ぶ1つのモデルは、2出力の線形層を持ち、次いで各話者に対する音声活動検出(VAD)のためのシグモイド非線形性を持つ。 0.79
One node gets activated when only one speaker is talking while two nodes become active when two people are speaking simultaneously. 1つの話者だけが話しているときに1つのノードが起動され、2人が同時に話しているときに2つのノードがアクティブになる。 0.58
This model is similar to the method proposed in [4] and can be trained with PIT. このモデルは[4]で提案された手法に似ており、PITでトレーニングすることができる。 0.69
Another model, which refers to as s2, has one linear output node for directly estimating the number of active speakers (0, 1 or 2 in our work). s2 と呼ばれる別のモデルは、1つの線形出力ノードを持ち、作業中のアクティブな話者数 (0, 1, 2) を直接推定する。 0.77
In both cases, we also add speech separation nodes and perform multi-task learning, which might help better align the speaker counting learning with speech separation. いずれの場合も、音声分離ノードを追加し、マルチタスク学習を実行することで、話者カウント学習と音声分離の整合性を高めることができます。
訳抜け防止モード: いずれの場合も、音声分離ノードを追加し、マルチタスク学習を行う。 話者の学習数とスピーチの分離を より良く合わせることができます
0.76
For each CSS processing window, we determine whether there are multiple speakers in the currently processed window based on the model output and a predetermined threshold. 各CSS処理ウィンドウでは、モデル出力と所定のしきい値に基づいて、現在処理中のウィンドウに複数のスピーカーが存在するかどうかを決定します。 0.74
For model s1, we decide that the current window contains multiple speakers if the two nodes get activated (> 0.5) in three or more consecutive frames. モデルs1では、2つのノードが3つ以上の連続フレームでアクティブ(>0.5)になると、現在のウィンドウが複数のスピーカーを含むことを決定します。 0.71
For model s2, the criterion is whether the speaker counting node value is greater than 1.2 in three or more consecutive frames. モデルs2の基準は、スピーカカウントノード値が3つ以上の連続フレームで1.2より大きいかどうかである。 0.75
IV. EXPERIMENT AND RESULTS A. IV。 実験と成果 A。 0.72
Evaluation data Following the development of LibriCSS [15], we designed and recorded a new dateset, namely AdHoc-LibiCSS, for evaluation of ad hoc array-based speech separation and multitalker speech recognition algorithms under acoustically realistic conditions. 評価データは,LibriCSS [15]の開発に続き,アドホックアレイに基づく音声分離とマルチストーカー音声認識アルゴリズムを音響的に現実的な条件下で評価するための新しい日付セット,AdHoc-LibiCSSを設計・記録した。 0.78
The AdHoc-LibriCSS consists of recordings of concatenated LibriSpeech utterances played back from loudspeakers to simulate conversations. AdHoc-LibriCSSは、会話をシミュレートするためにスピーカーから再生される、連結されたLibriSpeech発話の記録で構成されている。 0.51
The recordings were made with multiple devices such as cell phones and laptops. 録音は携帯電話やラップトップなどの複数のデバイスで行われた。 0.75
As with LibriCSS, the new dataset comprises multiple minisessions. LibriCSSと同様に、新しいデータセットは複数のミニセッションから構成される。 0.57
Two different recording conditions are considered, 2つの異なる記録条件が考慮される。 0.68
#loudspeakers room duration per mini-session #subsets / #mini-sessions per subset #recording devices #loudspeakers room duration per mini-session #subsets / #mini-sessions per subset #recording devices 0.95
5 TABLE I RECORDING SETUP DETAILS. 5 テーブルI 記録セットデテイル。 0.58
2-speaker 5-speaker personal office meeting room 10 mins 4/8 5 2スピーカー5スピーカー個人会議室10分4/85 0.86
2 4 mins 4/20 5 2 4分 4/20 5 0.78
which we refer to as 2-speaker and 5-speaker scenarios. これを2話者シナリオと5話者シナリオと呼ぶ。 0.62
The details of these two recording conditions are shown in Table I. これら2つの記録条件の詳細はテーブルIに示されている。 0.77
There are four subsets, dev-no-overlap, dev-overlap, testno-overlap, and test-overlap, where the dev-∗ and test-∗ subsets use the LibriSpeech dev-clean and test-clean utterances, respectively. dev-no-overlap、dev-overlap、testno-overlap、test-overlapの4つのサブセットがあり、dev-*とtest-*のサブセットはそれぞれLibriSpeechのdev-cleanとtest-cleanの発話を使用する。 0.54
To enable fair comparison between the overlap and no-overlap conditions, the same speech content is used to create the overlap and no-overlap subsets. オーバーラップ条件とオーバーラップ条件を適切に比較するために、オーバーラップ部分集合を作成するために同じ音声コンテンツを使用する。 0.61
For each mini-session, we firstly sampled N ∈ {2, 5} speakers from the LibriSpeech dev or test set [17] while ensuring that each utterance from every speaker was used only once in the recording. 各ミニセッションでは、まずLibriSpeechのdevまたはテストセット[17]からN ∈ {2, 5}スピーカーをサンプリングし、各スピーカーの発話が録音で1回だけ使用されるようにしました。 0.74
We then re-arranged and concatenated the utterances from each sampled speaker to form a simulated conversation, which was played by N loudspeakers placed in a room. 次に,各話者の発話を並べ替え,整理し,室内に設置したN人のスピーカが演奏するシミュレートされた会話を形成する。 0.76
Each loudspeaker uniquely represented one talker. 各スピーカーは独特に1人の話し手を表した。 0.54
The loudspeakers and recording devices were randomly placed in the room. スピーカーと録音装置は部屋にランダムに配置された。 0.79
The setup remained the same within each minisession. 設定は各ミニセッション内で同じままでした。 0.69
The overlap ratio for test-overlap was in the range of 0 to 30%, and that for dev-overlap was 10% to 40%. テストオーバーラップの重複比率は0から30%の範囲であり、開発オーバーラップの比率は10%から40%であった。 0.75
For each mini-session, all raw recordings from different devices were synchronized using cross-correlation before separation. 各ミニセッションでは、異なるデバイスからのすべての生記録は分離前に相互相関を使って同期された。 0.56
B. Training data A training set consisting of 375 hours of artificially mixed speech was constructed for speech separation and speaker counting model training. B。 訓練データ 音声分離と話者計数モデルトレーニングのために, 人工混合音声の375時間からなる訓練セットを構築した。 0.81
We divided the training data into five categories based on the overlap style as proposed in [1]: 40% for single speaker segments, 9% for inclusive overlap segments, 6% for sequential overlap segments, 36% for full overlap segments, and 9% for partial overlap segments. 学習データは,単一話者セグメントでは40%,包括的重複セグメントでは9%,逐次的重複セグメントでは6%,全重複セグメントでは36%,部分的重複セグメントでは9%の5つのカテゴリに分類した。
訳抜け防止モード: オーバーラップスタイルに基づいて、トレーニングデータを5つのカテゴリに分割しました。 1 で提案された. シングルスピーカセグメントは40%、インクルーシブオーバーラップセグメントは9%です。 6 %, 完全重複セグメントは36 %, 連続重複セグメントは6 %であった。 そして部分的な重複の区分のための9 %。
0.76
Speaker and microhone locations as well as room dimensions were randomly determined to simulate the ad hoc array setting as described in [5], where room impulse responses were generated with the image method [27]. 画像法[27]で室内インパルス応答を生成する[5]に記述されているアドホックアレイ設定をシミュレートするために、スピーカーとマイクロホンの位置とルーム寸法をランダムに決定しました。 0.75
Gaussian noise was added to each channel at an SNR of [−5, 15] dB. ガウスノイズは[−5, 15] dBのSNRで各チャネルに付加された。 0.78
Device distortion simulation was then applied to the noisy overlapped signals. デバイス歪みシミュレーションを雑音重なり信号に適用した。 0.70
Each type of distortion was independently applied to each device. 各デバイスに各種類の歪みを独立に適用した。 0.74
The band-pass filtering, waveform clipping, and delay perturbation were performed at probabilities of 40%, 5%, and 80%, respectively. バンドパスフィルタ,波形クリッピング,遅延摂動はそれぞれ40%,5%,80%の確率で行った。
訳抜け防止モード: バンド - パスフィルタリング、波形クリッピング、遅延摂動が40%の確率で実行されました。 5%,80%であった。
0.64
The low and high cutoff frequencies of the band pass filter were uniformly sampled from [50, 200] Hz and [4000, 7000] Hz, respectively. 帯域通過フィルタの低カットオフ周波数と高カットオフ周波数をそれぞれ [50, 200] Hz と [4000, 7000] Hz から均一にサンプリングした。 0.83
The clipping ratio was uniformly sampled from [0.55, 0.9]. 切り込み比は[0.55, 0.9]から均一にサンプリングした。 0.69
The delay for each device was uniformly sampled from [−20, 20] ms. A validation set of 20 hours was also generated in the same way. 各装置の遅延は[-20, 20]msから均一にサンプリングされた。 0.42
英語(論文から抽出)日本語訳スコア
WERS OF 2-SPEAKER SCENARIO (%). WERS OF 2-SPEAKER SCENARIO (%)。 0.85
SHADED AND UNSHADED RESULTS ARE FOR THE NO-OVERLAP AND OVERLAP SUBSETS, RESPECTIVELY. shaded と unshaded の結果はそれぞれ no-overlap と overlap subset である。 0.34
TABLE II WERS OF 5-SPEAKER SCENARIO (%). テーブルII WERS OF 5-SPEAKER SCENARIO (%)。 0.73
SHADED AND UNSHADED RESULTS ARE FOR THE NO-OVERLAP AND OVERLAP SUBSETS, RESPECTIVELY. shaded と unshaded の結果はそれぞれ no-overlap と overlap subset である。 0.34
TABLE III Overlap ratio % 0 テーブルIII オーバーラップ比 % 0。 0.72
[10, 20) (20, 30) (30, 40] [10, 20) (20, 30) (30, 40] 0.85
0 (0, 10) (10, 20) (20, 30] 0 (0, 10) (10, 20) (20, 30] 0.85
ori 12.01 16.25 24.19 32.65 12.23 12.93 16.98 25.08 オリ 12.01 16.25 24.19 32.65 12.23 12.93 16.98 25.08 0.50
sep dev-set sep dev-set 0.71
18.13 21.52 16.75 20.98 26.94 17.88 23.40 29.86 18.13 21.52 16.75 20.98 26.94 17.88 23.40 29.86 0.42
test-set sep +dis 16.02 19.83 15.87 19.85 16.49 13.48 18.05 18.85 テストセット sep +dis 16.02 19.83 15.87 19.85 16.49 13.48 18.05 18.85 0.54
sep+dis+spk-cnt s2 s1 12.46 13.23 15.12 15.68 15.96 17.12 19.64 20.14 11.67 12.79 12.08 12.25 13.99 16.00 15.17 16.24 sep+dis+spk-cnt s2 s1 12.46 13.23 15.12 15.68 15.96 17.12 19.64 20.14 11.67 12.79 12.08 12.25 13.99 16.00 15.17 16.24 0.39
Overlap ratio % 0 オーバーラップ比 % 0。 0.80
[10, 20) (20, 30) (30, 40] [10, 20) (20, 30) (30, 40] 0.85
0 (0, 10) (10, 20) (20, 30] 0 (0, 10) (10, 20) (20, 30] 0.85
ori 12.85 16.80 26.38 28.28 15.50 15.27 21.07 29.42 オリ 12.85 16.80 26.38 28.28 15.50 15.27 21.07 29.42 0.50
sep dev-set sep dev-set 0.71
17.19 17.03 16.76 19.09 20.44 15.60 16.76 22.27 17.19 17.03 16.76 19.09 20.44 15.60 16.76 22.27 0.42
test-set sep +dis 15.50 15.47 18.58 19.51 16.57 12.79 15.65 20.05 テストセット sep +dis 15.50 15.47 18.58 19.51 16.57 12.79 15.65 20.05 0.54
sep+dis+spk-cnt s2 s1 12.15 13.05 13.69 13.90 16.50 16.73 17.68 18.64 13.62 13.70 11.38 11.51 14.82 15.43 17.34 17.92 sep+dis+spk-cnt s2 s1 12.15 13.05 13.69 13.90 16.50 16.73 17.68 18.64 13.62 13.70 11.38 11.51 14.82 15.43 17.34 17.92 0.39
C. Training schemes For a separation model, the input waveform of each channel was transformed into an STFT representation with 257 frequency bins every 16 ms. Layer normalization was performed on the input magnitude spectrum vectors. C. 訓練方式 分離モデルでは、各チャネルの入力波形を16ミリ秒ごとに257個の周波数ビンでSTFT表現に変換し、入力マグニチュードスペクトルベクトル上でレイヤー正規化を行った。 0.85
Three spatiotemporal processing blocks were stacked. 3つの時空間処理ブロックを積み重ねた。 0.59
The self-attention for spatial modeling and temporal modeling both had 128dimensional embedding spaces and eight attention heads. 空間的モデリングと時間的モデリングの自己注意はどちらも128次元の埋め込み空間と8つのアテンションヘッドを有していた。 0.55
The last two BLSTM layers contained 512 cells for each direction. 最後の2つのBLSTM層は、各方向に512の細胞を含んでいた。 0.60
We adopted PIT using an amplitude spectrum-based MSE loss. 振幅スペクトルベースのMSE損失を用いたPITを採用。 0.73
The model was trained for 50 epochs while saving the model parameters at the end of each epoch. モデルは50エポックで訓練され、各エポックの最後にモデルのパラメータを保存した。 0.74
The best model parameters were chosen based on the dev set WER. 最良のモデルパラメータは、開発セット WER に基づいて選択された。 0.78
Our speaker counting models had three cross-frame selfattention layers, each followed by a feed-forward layer. 話者計数モデルは3つのクロスフレーム・セルフアテンション層を有し,それぞれをフィードフォワード層とした。 0.62
Two BLSTM layers and a final linear layer are stacked on top. 2つのBLSTM層と最後の線形層が上に積み重ねられている。 0.77
The VAD-based s1 model had a sigmoid activation function to produce two VAD signals. VADベースのs1モデルは2つのVAD信号を生成するシグモイド活性化機能を備えていた。 0.60
For both models, we performed multi-task learning by using speech separation as an auxiliary task. 両モデルに対して,音声分離を補助課題としたマルチタスク学習を行った。 0.75
It should be noted that, for s1 model training, PIT was independently applied to speech separation and VAD estimation. s1モデルトレーニングでは,PITは音声分離とVAD推定に独立して適用された点に注意が必要である。 0.71
Both speaker counting models adopted an MSE loss for training. どちらの話者計数モデルも訓練にmse損失を採用した。 0.60
The separation loss and the speaker counting loss were given an equal weight. 分離損失および話者カウント損失は等しい重量を与えられました。 0.70
At test time, the separation output was ignored. テスト時に分離出力は無視された。 0.73
Model training was continued until a validation loss did not decrease for 10 continuous epochs. モデルトレーニングは10時間連続で検証損失が減少するまで継続された。 0.72
D. Evaluation scheme For each mini-session, the CSS module using the trained separation model generated two output streams, each of which was then processed by a speech recognizer. d. 各ミニセッションの評価スキーム、訓練された分離モデルを用いたcssモジュールは、2つの出力ストリームを生成し、それぞれを音声認識器で処理した。 0.76
Then, the recognition outputs were evaluated with asclite [28], [29], which can align multiple (two in this work) hypotheses against multiple reference transcriptions. 次に、複数の参照転写に対して複数の(この2つの)仮説を一致させることができるasclite [28], [29]を用いて認識出力を評価した。 0.75
We used an in-house hybrid ASR system [30] with 5-gram decoding trained on 33k hours of audio, including close-talking, distance-microhpone, and artificially corrupted speech. 我々は,33k時間の音声で5グラムの復号を訓練した室内ハイブリッドASRシステム[30]を用いた。 0.60
E. Results and discussions Tables II and III show the WER results for various overlap ratios for the 2-speaker and 5-speaker scenarios, respectively. E.結果と議論 表IIとIIIは、それぞれ2話者と5話者のシナリオに対して、様々な重なり合いのWER結果を示す。 0.72
For the dev-overlap and test-overlap subsets, the results are dev-overlapとtest-overlapのサブセットに対して、結果は 0.65
broken down by the mini-session overlap ratio. ミニセッション重複比で分解します。 0.60
For each setting, we present the results of the following systems: (1) ASR applied to a randomly chosen channel without speech separation (ori); (2) ASR applied to the signals separated by the model trained without data augmentation (sep); (3) ASR applied to the signals separated by the model trained on device distortion simulated data (sep+dis); (4) systems performing speaker counting-based channel merger on top of (3) (sep+dis+spk-cnt). 各設定について,(1)音声分離なしでランダムに選択されたチャネルに適用するASR(ori),(2)データ拡張なしで訓練したモデルで分離した信号に適用するASR(sep),(3)デバイス歪みシミュレーションデータで訓練したモデルで分離した信号に適用するASR(sep+dis),(4)(3)上で話者カウントに基づくチャネルマージを行うシステム(sep+dis+spk-cnt)について述べる。 0.84
The results show that the separation model improved the WER for highly overlapped cases, but it resulted in significant degradation for less overlapped cases without the proposed duplication mitigation methods. その結果, 分離モデルにより, 重複するケースに対してWERの精度は向上したが, 重複の少ないケースでは重複を緩和する手法が提案されなかった。 0.76
This was mostly due to increased insertion errors. これは主に挿入エラーの増加によるものです。 0.74
Applying the device distortion simulation for the training data substantially improved the WERs in most cases. トレーニングデータに対するデバイス歪みシミュレーションの適用は、ほとんどの場合、WERを大幅に改善した。 0.74
However, the WER degradation for the no-overlap subsets was still significant for both the 2speaker and 5-speaker cases. しかし, 2 話者と 5 話者の双方にとって, ノーオーバーラップサブセットの WER 劣化は依然として有意であった。 0.61
The channel merger processing using speaker counting mostly solved this problem, resulting in significant WER improvement for the highly overlapped data without compromising the ASR accuracy for the nooverlap subset. 話者カウントを用いたチャネルマージ処理は, 主にこの問題を解決し, nooverlapサブセットのasr精度を損なうことなく, 重複度の高いデータに対して有意な wer 改善を実現した。 0.73
Among the two speaker counting schemes, the s2 system outperformed the s1 system in the 2-speaker scenario for almost all overlap conditions. 2つのスピーカカウントスキームの中で、s2システムはほぼすべてのオーバーラップ条件で2つのスピーカシナリオでs1システムより優れています。 0.64
In the 5-speaker case, both models performed equally well. 5スピーカの場合、両方のモデルが等しくうまく動作しました。 0.60
V. CONCLUSIONS V.コンキュレーション 0.76
We described a CSS system for ad hoc microphone arrays. アドホックマイクロホンアレイのためのCSSシステムについて述べる。 0.73
A transformer-based architecture was applied for separation. 分離のためにトランスベースのアーキテクチャが適用された。 0.50
To mitigate the speech duplicating problem for non-overlapped segments, we proposed data augmentation based on device distortion simulation to reduce the mismatch between training data and the real recordings obtained with spatially distributed devices. オーバーラップされていないセグメントの音声重複問題を軽減するために, デバイス歪みシミュレーションに基づくデータ拡張を提案し, トレーニングデータと空間分散デバイスで得られた実際の記録とのミスマッチを低減した。 0.79
The use of speaker counting was also introduced to further mitigate the issue. 問題をさらに緩和するために、スピーカーカウントの使用も導入された。 0.67
Multi-talker ASR experiments were performed by using newly recorded AdHoc-LibriCSS, showing that the proposed system significantly improved the ASR accuracy for recordings including various degrees of overlaps while retaining the WER for non-overlapped speech. 新たに記録したAdHoc-LibriCSSを用いてマルチストーカーASR実験を行い,非オーバーラップ音声のWERを維持しながら,様々な重なりを含む記録のASR精度を有意に向上させた。 0.74
英語(論文から抽出)日本語訳スコア
[25] [22] H. Erdogan, J. Hershey, S. Watanabe, M. Mandel, and J. [25] 22] H. Erdogan, J. Hershey, S. Watanabe, M. Mandel, J. 0.87
Le Roux, “Improved MVDR beamforming using single-channel mask prediction networks,” in Proc. Procによると、Le Rouxは“シングルチャネルマスク予測ネットワークによるMVDRビームフォーミングを改良した”。 0.57
Interspeech, 2016, pp. 2016年、p.p.。 0.52
1981–1985. 1981–1985. 0.71
[23] J. Heymann, L. Drude, and R. Haeb-Umbach, “A generic neural acoustic beamforming architecture for robust multi-channel speech processing,” Computer Speech, Language, vol. J. Heymann, L. Drude, R. Haeb-Umbach, “A generic neural acoustic beamforming architecture for robust multi-channel speech processing”, Computer Speech, Language, vol. 英語) 0.86
46, pp. 374–385, 2017. 46, pp。 374–385, 2017. 0.82
[24] C. Boeddeker, H. Erdogan, T. Yoshioka, and R. Haeb-Umbach, “Exploring practical aspects of neural mask-based beamforming for farfield speech recognition,” in 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2018, pp. C. Boeddeker, H. Erdogan, T. Yoshioka, R. Haeb-Umbach, “Exploring practical aspects of Neural mask-based beamforming for farfield speech Recognition” in 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2018, pp. 0.84
6697– 6701. 6697– 6701. 0.94
¨O. C¸ etin and E. Shriberg, “Analysis of overlaps in meetings by dialog factors, hot spots, speakers, and collection site: insights for automatic speech recognition,” in INTERSPEECH, 2006. うーん。 etin, e. shriberg両氏は2006年にinterspeechで,“ダイアログファクタ,ホットスポット,講演者,収集サイトによるミーティングの重なりの分析: 自動音声認識のための洞察”と題した講演を行った。 0.66
[26] D. Yu, M. Kolbæk, Z. Tan, and J. Jensen, “Permutation invariant training of deep models for speaker-independent multi-talker speech separation,” in Proc. [26]D. Yu, M. Kolbæk, Z. Tan, J. Jensen, “Permutation invariant training of deep model for speaker-independent multi-talker speech separation” in Proc. 0.98
IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2017, pp. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2017, pp。 0.77
241–245. “gpuRIR: A python library for room impulse response simulation with GPU acceleration,” in arXiv, 2018. 241–245. gpuRIR: GPUアクセラレーションによるルームインパルス応答シミュレーションのためのpythonライブラリ」がarXiv, 2018で発表されました。 0.68
“Multiple dimension levenshtein edit distance calculations for evaluating automatic speech recognition systems during simultaneous speech,” in Proceedings of Language Resources and Evaluation (LREC), 2006. 2006年言語資源・評価手続(LREC)における「同時発話時における自動音声認識システム評価のための多次元レブンシュテイン編集距離計算」 0.86
[27] D. Diaz-Guerra, A. Miguel, and J. R. Beltran, 27] D. Diaz-Guerra, A. Miguel, J. R. Beltran 0.92
[28] J. Fiscus, J. Ajot, N. Radde, and C. Laprun, [28] J. Fiscus, J. Ajot, N. Radde, C. Laprun 0.90
[29] “https://github.com/u snistgov/sctk,” 2018. [29] “https://github.com/u snistgov/sctk” 2018。 0.69
[30] S. Xue and Z. Yan, “Improving latency-controlled blstm acoustic models for online speech recognition,” in 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2017, pp. 2017年IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2017 pp. [30] S. Xue and Z. Yan, “Improving while-control blstm acoustic model for online speech recognition” に登壇しました。 0.88
5340– 5344. 5340– 5344. 0.94
REFERENCES [1] T. Yoshioka, H. Erdogan, Z. Chen, and F. Alleva, “Multi-microphone neural speech separation for far-field multi-talker speech recognition,” in Proc. 参考 [1] T. Yoshioka, H. Erdogan, Z. Chen, F. Alleva, "Multi-microphone neural Speech separation for far-field Multi-talker Speech Recognition", Proc。 0.67
IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2018, pp. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2018, pp。 0.76
5739–5743. 5739–5743. 0.71
[2] F. Bahmaninezhad, J. Wu, R. Gu, S. Zhang, Y. Xu, M. Yu, and D. Yu, “A comprehensive study of speech separation: Spectrogram vs waveform separation,” in Proc. [2] F. Bahmaninezhad, J. Wu, R. Gu, S. Zhang, Y. Xu, M. Yu, D. Yu, “A comprehensive study of speech separation: Spectrogram vs Waveform separation” in Proc. 0.94
Interspeech, 2019, pp. Interspeech, 2019, pp。 0.82
4574–4578. 4574–4578. 0.71
[3] X. Chang, W. Zhang, Y. Qian, J. [3]X. Chang, W. Zhang, Y. Qian, J. 0.98
Le Roux, and S. Watanabe, “MIMOSPEECH: End-to-end multi-channel multi-speaker speech recognition,” in Automatic Speech Recognition and Understanding Workshop, Dec. 2019. Le Roux, S. Watanabe, “MIMOSPEECH: End-to-end Multi-Speaker speech Recognition”, Automatic Speech Recognition and Understanding Workshop, 2019年12月。 0.89
[4] Z. Wang, P. Wang, and D. Wang, “Multi-microphone complex spectral mapping for utterance-wise and continuous speaker separation,” in arXiv, 2020. Z. Wang, P. Wang, D. Wang, “Multi-microphone complex spectrum mapping for utterance-wise and continuous speaker separation” in arXiv, 2020。 0.83
[5] D. Wang, Z. Chen, and T. Yoshioka, “Neural speech separation using spatially distributed microphones,” in Proc. 5] D. Wang, Z. Chen, T. Yoshioka, “Neural speech separation using spacely distributed microphones”, Proc。 0.76
Interspeech, 2020. 2020年インタースピーチ。 0.77
[6] S. Horiguchi, Y. Fujita, and K. Nagamatsu, “Utterance-wise meeting transcription system using asynchronous distributed microphones,” in Proc. 堀口 S. Horiguchi, Y. Fujita, K. Nagamatsu 氏は Proc で,“非同期分散マイクロホンを用いた発話型ミーティングトランスクリプションシステム” について述べている。 0.66
Interspeech, 2020. 2020年インタースピーチ。 0.77
[7] S. Horiguchi, Y. Fujita, and K. Nagamatsu, “Block-online guided source separation,” in arXiv, 2020. 7] 2020 年 arXiv で S. Horiguchi, Y. Fujita, K. Nagamatsu, “Block-online guide source separation” を発表しました。 0.81
[8] Z. Yang, S. Guan, and X. Zhang, “Deep ad-hoc beamforming based on speaker extraction for target-dependent speech separation,” in arXiv, 2020. Z. Yang, S. Guan, and X. Zhang, “Deep ad-hoc beamforming based on speaker extract for target-dependent speech separation” in arXiv, 2020。 0.83
[9] Z. Liu, “Sound source seperation with distributed microphone arrays in the presence of clocks synchronization errors,” in Proc. procの[9] z. liu, “クロック同期エラーの存在下で、分散マイクロホンアレイによる音源分離”。 0.70
International Workshop for Acoustic Echo and Noise Control (IWAENC), 2008, p. 14–17. International Workshop for Acoustic Echo and Noise Control (IWAENC), 2008, pp. 14-17。 0.88
[10] S. Araki, N. Ono, K. Kinoshita, and M. Delcroix, “Meeting recognition with asynchronous distributed microphone array using block-wise refinement of mask-based MVDR beamformer,” in Proc. 10] araki, n. ono, k. kinoshita, m. delcroix, "procにおけるマスクベースmvdrビームフォーマーのブロック分割による非同期分散マイクロホンアレーによる認識"。 0.76
IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), April 2018, pp. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP, April 2018, pp。 0.78
5694–5698. 5694–5698. 0.71
[11] T. Yoshioka, D. Dimitriadis, A. Stolcke, W. Hinthorn, Z. Chen, M. Zeng, and X. Huang, “Meeting transcription using asynchronous distant microphones,” in Proc. 11] T. Yoshioka, D. Dimitriadis, A. Stolcke, W. Hinthorn, Z. Chen, M. Zeng, X. Huang, “Meeting transcription usingsync remote microphones” とProcは述べている。 0.91
Interspeech, 2019, p. 2968–2972. 2019年、p.2968-2972。 0.56
“End-to-end [12] Y. Luo, Z. Chen, N. Mesgarani, and T. Yoshioka, microphone permutation and number invariant multi-channel speech in Proc. End-to-end [12] Y. Luo, Z. Chen, N. Mesgarani, T. Yoshioka, microphone permutation and number invariant multi-channel speech in Proc. (英語) 0.79
IEEE International Conference on Acoustics, separation,” Speech and Signal Processing (ICASSP), 2020. IEEE International Conference on Acoustics, separation”. Speech and Signal Processing (ICASSP) 2020 0.73
[13] N. Furnon, R. Serizel, I. Illina, and S. Essid, “Distributed speech separation in spatially unconstrained microphone arrays,” in arXiv, 2020. 13] N. Furnon, R. Serizel, I. Illina, S. Essid, "Distributed Speech separation in spacely unconstrained microphone arrays" in arXiv, 2020。 0.80
[14] T. Yoshioka, I. Abramovski, C. Aksoylar, Z. Chen, M. David, D. Dimitriadis, Y. Gong, I. Gurvich, X. Huang, Y. Huang, A. Hurvitz, L. Jiang, S. Koubi, E. Krupka, I. Leichter, C. Liu, P. Parthasarathy, A. Vinnikov, L. Wu, X. Xiao, W. Xiong, H. Wang, Z. Wang, J. Zhang, Y. Zhao, and T. Zhou, “Advances in online audio-visual meeting transcription,” in Proc. T. Yoshioka, I. Abramovski, C. Aksoylar, Z. Chen, M. David, D. Dimitriadis, Y. Gong, I. Gurvich, X. Huang, Y. Huang, A. Hurvitz, L. Jiang, S. Koubi, E. Krupka, I. Leichter, C. Liu, P. Parthasarathy, A. Vinnikov, L. Wu, X. Xiao, W. Xiong, H. Wang, Z. Wang, J. Zhang, Y. Zhao, T. Zhou, “Advancess in online-vis transcription meeting in Proc.”[14] 0.94
IEEE Automatic Speech Recognition and Understanding Workshop (ASRU), 2019. IEEE Automatic Speech Recognition and Understanding Workshop (ASRU) 2019年。 0.79
[15] Z. Chen, T. Yoshioka, L. Lu, T. Zhou, Z. Meng, Y. Luo, J. Wu, and J. Li, “Continuous speech separation: dataset and analysis,” in Proc. [15] Z. Chen, T. Yoshioka, L. Lu, T. Zhou, Z. Meng, Y. Luo, J. Wu, J. Li, “Continuous speech separation: dataset and analysis” in Proc. 0.97
IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2020. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)、2020年。 0.84
[16] S. Chen, Y. Wu, Z. Chen, J. Wu, J. Li, T. Yoshioka, C. Wang, S. Liu, and M. Zhou, “Continuous speech separation with conformer,” in arXiv, 2020. 16] S. Chen, Y. Wu, Z. Chen, J. Wu, J. Li, T. Yoshioka, C. Wang, S. Liu, M. Zhou, “conformerによる連続音声分離”, arXiv, 2020。 0.89
[17] V. Panayotov, G. Chen, D. Povey, and S. Khudanpur, “Librispeech: An ASR corpus based on public domain audio books,” in Proc. 17] V. Panayotov, G. Chen, D. Povey, and S. Khudanpur, “Librispeech: ASR corpus based on public domain audio book” とProcは述べている。 0.92
IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2015, pp. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2015, pp。 0.77
5206–5210. 5206–5210. 0.71
[18] T. Yoshioka, H. Erdogan, Z. Chen, X. Xiao, and F. Alleva, “Recognizing overlapped speech in meetings: A multichannel separation approach using neural networks,” in Proc. 18]th. yoshioka, h. erdogan, z. chen, x. xiao, f. alleva, “ミーティングで重複するスピーチを認識する: ニューラルネットワークを用いたマルチチャネル分離アプローチ” procは、この2つだ。
訳抜け防止モード: 18 ] T. Yoshioka, H. Erdogan, Z. Chen X. XiaoとF. Alleva。 会議における重複したスピーチの認識 ニューラルネットワークを用いたマルチチャネル分離手法「Proc」。
0.75
Interspeech, 2018, pp. 原書、2018年、p。 0.34
3038–3042. 3038–3042. 0.71
[19] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, and I. Polosukhin, “Attention is all you need,” in Proc. [19]A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, I. Polosukhin, “Attention is all you need”, Proc. 0.94
NeurIPS, 2017, p. 1–11. 2017年、p.1-11。 0.59
[20] C. Liu and Y. Sato, “Self-attention for multi-channel speech separation in noisy and reverberant environments,” in Proceedings of APSIPA Annual Summit and Conference, 2020. C. Liu, Y. Sato, “Self-attention for multi- channel speech separation in noisy and reverberant environment” in Proceedings of APSIPA Annual Summit and Conference, 2020。 0.80
[21] C. Zheng, X. Peng, Y. Zhang, S. Srinivasan, and Y. Lu, “Interactive speech and noise modeling for speech enhancement,” in Proceedings of AAAI Conference on Artificial Intelligence, 2021. 21] c. zheng, x. peng, y. zhang, s. srinivasan, y. lu, “interactive speech and noise modeling for speech enhancement” in proceedings of aaai conference on artificial intelligence, 2021” (英語)
訳抜け防止モード: [21]C.Zheng,X.Peng,Y.Zha ng, S. Srinivasan, and Y. Lu, “Interactive speech and noise modeling for speech enhancement, .” in Proceedings of AAAI Conference on Artificial Intelligence, 2021
0.92
           ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。