論文の概要: Voice Separation with an Unknown Number of Multiple Speakers
- arxiv url: http://arxiv.org/abs/2003.01531v4
- Date: Tue, 1 Sep 2020 14:12:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 20:34:27.953155
- Title: Voice Separation with an Unknown Number of Multiple Speakers
- Title(参考訳): 未知数の複数話者による音声分離
- Authors: Eliya Nachmani, Yossi Adi, Lior Wolf
- Abstract要約: 本稿では,複数の音声が同時に発声する混合音声系列を分離する手法を提案する。
新たな手法では、複数の処理ステップで音声を分離するように訓練されたゲートニューラルネットワークを使用し、各出力チャネルに固定された話者を維持する。
- 参考スコア(独自算出の注目度): 113.91855071999298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a new method for separating a mixed audio sequence, in which
multiple voices speak simultaneously. The new method employs gated neural
networks that are trained to separate the voices at multiple processing steps,
while maintaining the speaker in each output channel fixed. A different model
is trained for every number of possible speakers, and the model with the
largest number of speakers is employed to select the actual number of speakers
in a given sample. Our method greatly outperforms the current state of the art,
which, as we show, is not competitive for more than two speakers.
- Abstract(参考訳): 本稿では,複数の音声を同時に話す混合音声列を分離する新しい手法を提案する。
新たな手法では、複数の処理ステップで音声を分離するように訓練されたゲートニューラルネットワークを使用し、各出力チャネルに固定された話者を維持する。
可能な話者数毎に異なるモデルが訓練され、最大話者数を持つモデルは、与えられたサンプル内の実際の話者数を選択するために使用される。
提案手法は,2人以上の話者にとって競争力のない,現在の技術水準を大きく上回っている。
関連論文リスト
- TOGGL: Transcribing Overlapping Speech with Staggered Labeling [5.088540556965433]
複数話者の音声を同時に書き起こすモデルを提案する。
提案手法は,2話者データのみを訓練しても,2話者以上を一般化する。
論文 参考訳(メタデータ) (2024-08-12T20:19:27Z) - End-to-End Single-Channel Speaker-Turn Aware Conversational Speech
Translation [23.895122319920997]
エンド・ツー・エンドおよびマルチタスク・トレーニングモデルを用いて、単一チャンネルのマルチ話者会話STに取り組む。
Speaker-Turn Aware Conversational Speech Translationは、音声認識、音声翻訳、話者のターン検出を組み合わせる。
本研究では,本モデルがマルチスピーカ条件で参照システムより優れ,単一スピーカ条件で同等の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-11-01T17:55:09Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Many-to-Many Voice Conversion based Feature Disentanglement using
Variational Autoencoder [2.4975981795360847]
そこで本稿では,多くの音声変換に対処するために,特徴のゆがみに基づく新しい手法を提案する。
本手法は、話者のアイデンティティと言語内容とを発話から切り離す能力を有する。
多くのソーススピーカーから単一のオートエンコーダネットワークで多くのターゲットスピーカーに変換することができる。
論文 参考訳(メタデータ) (2021-07-11T13:31:16Z) - Investigating on Incorporating Pretrained and Learnable Speaker
Representations for Multi-Speaker Multi-Style Text-to-Speech [54.75722224061665]
本研究では,異なる話者表現を調査し,事前学習可能な話者表現を統合することを提案する。
FastSpeech 2モデルと事前訓練された話者表現と学習可能な話者表現を組み合わせることで、少数の話者に対して大きな一般化能力を示す。
論文 参考訳(メタデータ) (2021-03-06T10:14:33Z) - Single channel voice separation for unknown number of speakers under
reverberant and noisy settings [106.48335929548875]
未知話者の音声分離のための統一ネットワークを提案する。
提案手法は話者分類枝とともに最適化された複数の分離ヘッドから構成される。
最大5人の話者が同時に話す新しい雑音と残響のデータセットを提示する。
論文 参考訳(メタデータ) (2020-11-04T14:59:14Z) - Neural Speaker Diarization with Speaker-Wise Chain Rule [45.60980782843576]
話者ダイアリゼーションのための話者ワイド条件付き推論手法を提案する。
提案手法は,可変話者数で精度よくダイアリゼーション結果を生成することができることを示す。
論文 参考訳(メタデータ) (2020-06-02T17:28:12Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。