論文の概要: Continuous speech separation: dataset and analysis
- arxiv url: http://arxiv.org/abs/2001.11482v3
- Date: Thu, 7 May 2020 09:13:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 12:47:14.955652
- Title: Continuous speech separation: dataset and analysis
- Title(参考訳): 連続音声分離:データセットと分析
- Authors: Zhuo Chen, Takuya Yoshioka, Liang Lu, Tianyan Zhou, Zhong Meng, Yi
Luo, Jian Wu, Xiong Xiao, Jinyu Li
- Abstract要約: 自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
- 参考スコア(独自算出の注目度): 52.10378896407332
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes a dataset and protocols for evaluating continuous speech
separation algorithms. Most prior studies on speech separation use
pre-segmented signals of artificially mixed speech utterances which are mostly
\emph{fully} overlapped, and the algorithms are evaluated based on
signal-to-distortion ratio or similar performance metrics. However, in natural
conversations, a speech signal is continuous, containing both overlapped and
overlap-free components. In addition, the signal-based metrics have very weak
correlations with automatic speech recognition (ASR) accuracy. We think that
not only does this make it hard to assess the practical relevance of the tested
algorithms, it also hinders researchers from developing systems that can be
readily applied to real scenarios. In this paper, we define continuous speech
separation (CSS) as a task of generating a set of non-overlapped speech signals
from a \textit{continuous} audio stream that contains multiple utterances that
are \emph{partially} overlapped by a varying degree. A new real recorded
dataset, called LibriCSS, is derived from LibriSpeech by concatenating the
corpus utterances to simulate a conversation and capturing the audio replays
with far-field microphones. A Kaldi-based ASR evaluation protocol is also
established by using a well-trained multi-conditional acoustic model. By using
this dataset, several aspects of a recently proposed speaker-independent CSS
algorithm are investigated. The dataset and evaluation scripts are available to
facilitate the research in this direction.
- Abstract(参考訳): 本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
音声分離におけるほとんどの先行研究は、主に「emph{fully}」と重複する人工混合音声の事前分離信号を用いており、そのアルゴリズムは信号対歪み比や類似のパフォーマンス指標に基づいて評価される。
しかし、自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
さらに,信号に基づくメトリクスは自動音声認識(ASR)の精度と非常に弱い相関関係を持つ。
これにより、テスト対象のアルゴリズムの実用的妥当性を評価することが難しくなるだけでなく、実際のシナリオに容易に適用可能なシステムを開発する研究者の妨げになると考えています。
本稿では, 連続音声分離(CSS)を, 様々な程度に重なり合う複数の発話を含む音声ストリームから, 重複しない音声信号の集合を生成するタスクとして定義する。
LibriCSSと呼ばれる新しい実際のデータセットは、会話をシミュレートするためにコーパス発話を連結し、遠距離マイクでオーディオ再生をキャプチャすることで、LibriSpeechから派生した。
十分に訓練された多条件音響モデルを用いて、カルディに基づくASR評価プロトコルも確立する。
このデータセットを用いて、最近提案された話者非依存CSSアルゴリズムのいくつかの側面について検討した。
この方向の研究を容易にするためにデータセットと評価スクリプトが利用できる。
関連論文リスト
- Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Zero-shot text-to-speech synthesis conditioned using self-supervised
speech representation model [13.572330725278066]
提案手法の新たなポイントは、大量のデータで訓練された音声表現から組込みベクトルを得るためにSSLモデルを直接利用することである。
この不整合埋め込みにより、未知話者の再生性能が向上し、異なる音声によるリズム伝達が実現される。
論文 参考訳(メタデータ) (2023-04-24T10:15:58Z) - Audio-text Retrieval in Context [24.38055340045366]
そこで本研究では,音声・テキストのアライメントを改善するために,複数のオーディオ機能とシーケンスアグリゲーション手法について検討する。
我々は,事前学習した音声特徴と記述子に基づくアグリゲーション法を用いた文脈音声テキスト検索システムを構築した。
提案システムでは、リコール、中央値、平均値を含むすべての指標において、双方向音声テキスト検索において顕著な改善が達成されている。
論文 参考訳(メタデータ) (2022-03-25T13:41:17Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Continuous Speech Separation with Ad Hoc Microphone Arrays [35.87274524040486]
音声分離は複数話者音声認識に有効であることが示された。
本稿では,このアプローチを連続音声分離に拡張する。
単一話者セグメントにおける音声問題を緩和する2つの手法を提案する。
論文 参考訳(メタデータ) (2021-03-03T13:01:08Z) - Multi-microphone Complex Spectral Mapping for Utterance-wise and
Continuous Speech Separation [79.63545132515188]
残響条件下での話者分離のためのマルチマイクロホン複合スペクトルマッピングを提案する。
本システムは,所定の形状に配置された固定数のマイクロホンに基づいて,室内インパルス応答のシミュレーションに基づいて学習する。
シミュレーションされたSMS-WSJコーパスと実記録したLibriCSSデータセット上で,最先端の分離性能が得られる。
論文 参考訳(メタデータ) (2020-10-04T22:13:13Z) - Evaluating the reliability of acoustic speech embeddings [10.5754802112615]
音声埋め込みは可変長音声列の定サイズ音響表現である。
ここでは,ABX識別と平均精度 (MAP) という2つの一般的な指標を,17の埋め込み手法にまたがる5つの言語で体系的に比較する。
ABXとMAPは相互に相関し,周波数推定を行う。
論文 参考訳(メタデータ) (2020-07-27T13:24:09Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z) - End-to-End Automatic Speech Recognition Integrated With CTC-Based Voice
Activity Detection [48.80449801938696]
本稿では,音声活動検出機能とエンドツーエンドの自動音声認識を統合する。
我々は,コネクショニストの時間的分類(CTC)と,同期/アテンションの拡張に焦点を当てた。
簡単なしきい値を用いた音声区間検出のためのキューとしてラベルを用いる。
論文 参考訳(メタデータ) (2020-02-03T03:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。