論文の概要: Guided Training: A Simple Method for Single-channel Speaker Separation
- arxiv url: http://arxiv.org/abs/2103.14330v1
- Date: Fri, 26 Mar 2021 08:46:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-29 12:34:25.908040
- Title: Guided Training: A Simple Method for Single-channel Speaker Separation
- Title(参考訳): 単チャンネル話者分離のための簡易学習法
- Authors: Hao Li, Xueliang Zhang, Guanglai Gao
- Abstract要約: 本稿では,話者分離における置換問題を解決するため,長期記憶モデル(LSTM)を訓練する戦略を提案する。
シーケンスモデリングの強力な能力のため、LSTMはそのメモリセルを使用して、ターゲット音声と干渉音声の追跡と分離を行うことができる。
- 参考スコア(独自算出の注目度): 40.34570426165019
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning has shown a great potential for speech separation, especially
for speech and non-speech separation. However, it encounters permutation
problem for multi-speaker separation where both target and interference are
speech. Permutation Invariant training (PIT) was proposed to solve this problem
by permuting the order of the multiple speakers. Another way is to use an
anchor speech, a short speech of the target speaker, to model the speaker
identity. In this paper, we propose a simple strategy to train a long
short-term memory (LSTM) model to solve the permutation problem in speaker
separation. Specifically, we insert a short speech of target speaker at the
beginning of a mixture as guide information. So, the first appearing speaker is
defined as the target. Due to the powerful capability on sequence modeling,
LSTM can use its memory cells to track and separate target speech from
interfering speech. Experimental results show that the proposed training
strategy is effective for speaker separation.
- Abstract(参考訳): 深層学習は、特に音声と非音声の分離において、音声の分離に大きな可能性を示している。
しかし、ターゲットと干渉の両方が音声であるマルチスピーカー分離の置換問題に遭遇する。
複数の話者の順序を置換することでこの問題を解決するために, 置換不変トレーニング (pit) が提案されている。
別の方法は、ターゲット話者の短いスピーチであるアンカー音声を使用して、話者のアイデンティティをモデル化することである。
本稿では,長寿命記憶モデル(LSTM)を学習し,話者分離における置換問題を解くための簡単な手法を提案する。
具体的には、混合の先頭に目標話者の短い音声をガイド情報として挿入する。
したがって、第1の話者はターゲットとして定義される。
シーケンスモデリングの強力な能力のため、LSTMはそのメモリセルを使用して、ターゲット音声と干渉音声の追跡と分離を行うことができる。
実験の結果,提案手法は話者分離に有効であることがわかった。
関連論文リスト
- Monaural Multi-Speaker Speech Separation Using Efficient Transformer
Model [0.0]
月次多話者音声分離」はトランスフォーマーアーキテクチャとその効率的な形式に基づく音声分離モデルを示す。
このモデルは、多様な話者の発話を含むLibriMixデータセットでトレーニングされている。
論文 参考訳(メタデータ) (2023-07-29T15:10:46Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Human-in-the-loop Speaker Adaptation for DNN-based Multi-speaker TTS [36.023566245506046]
マルチ話者音声を対象としたヒューマン・イン・ザ・ループ話者適応手法を提案する。
提案手法では, ユーザに対して, 埋め込み空間内の線分上の点を選択するように繰り返し要求する逐次線探索アルゴリズムを用いる。
実験結果から,提案手法は客観的および主観的評価において従来の手法に匹敵する性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-06-21T11:08:05Z) - Single-channel speech separation using Soft-minimum Permutation
Invariant Training [60.99112031408449]
教師付き音声分離における長寿命問題は、それぞれの分離された音声信号の正しいラベルを見つけることである。
Permutation Invariant Training (PIT) はラベルあいまいさ問題に対処する上で有望な解決策であることが示されている。
そこで本研究では,PITの不効率に対処する確率的最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-16T17:25:05Z) - Multi-stage Speaker Extraction with Utterance and Frame-Level Reference
Signals [113.78060608441348]
本稿では,複数段階の話者抽出手法を提案する。
初めて、ターゲット話者の基準としてフレームレベルの逐次音声埋め込みを用いる。
論文 参考訳(メタデータ) (2020-11-19T03:08:04Z) - Speaker Separation Using Speaker Inventories and Estimated Speech [78.57067876891253]
話者在庫(SSUSI)と推定音声(SSUES)を用いた話者分離を提案する。
置換不変訓練(PIT)と音声抽出の利点を組み合わせることで、SSUSIは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2020-10-20T18:15:45Z) - End-to-End Neural Diarization: Reformulating Speaker Diarization as
Simple Multi-label Classification [45.38809571153867]
本稿では,ニューラルネットワークが直接話者ダイアリゼーション結果を出力するエンド・ツー・エンド・ニューラルダイアリゼーション(EEND)を提案する。
話者セグメントラベルとマルチスピーカ記録を連携させることにより,本モデルは実際の会話に容易に適応できる。
論文 参考訳(メタデータ) (2020-02-24T14:53:32Z) - Improving speaker discrimination of target speech extraction with
time-domain SpeakerBeam [100.95498268200777]
SpeakerBeamは、ターゲット話者の適応発話を利用して、声の特徴を抽出する。
SpeakerBeamは、同じジェンダーのミキシングのように、話者が似たような音声特性を持つときに失敗することがある。
実験により、これらの戦略は、特に同性混合において、音声抽出性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2020-01-23T05:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。