論文の概要: Individualized Conditioning and Negative Distances for Speaker
Separation
- arxiv url: http://arxiv.org/abs/2210.06368v1
- Date: Wed, 12 Oct 2022 16:18:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 15:49:57.647437
- Title: Individualized Conditioning and Negative Distances for Speaker
Separation
- Title(参考訳): 話者分離のための個別条件と負距離
- Authors: Tao Sun, Nidal Abuhajar, Shuyu Gong, Zhewei Wang, Charles D. Smith,
Xianhui Wang, Li Xu, Jundong Liu
- Abstract要約: 話者分離法を改善するために,2つの話者認識設計を提案する。
第1のモデルは、個別化された話者条件を生成するために音声サンプルを統合する話者条件ネットワークである。
第二の設計は、分離された音声における非ターゲット音声を減らすことを目的としている。
- 参考スコア(独自算出の注目度): 6.231762785095769
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Speaker separation aims to extract multiple voices from a mixed signal. In
this paper, we propose two speaker-aware designs to improve the existing
speaker separation solutions. The first model is a speaker conditioning network
that integrates speech samples to generate individualized speaker conditions,
which then provide informed guidance for a separation module to produce
well-separated outputs.
The second design aims to reduce non-target voices in the separated speech.
To this end, we propose negative distances to penalize the appearance of any
non-target voice in the channel outputs, and positive distances to drive the
separated voices closer to the clean targets. We explore two different setups,
weighted-sum and triplet-like, to integrate these two distances to form a
combined auxiliary loss for the separation networks. Experiments conducted on
LibriMix demonstrate the effectiveness of our proposed models.
- Abstract(参考訳): 話者分離は、混合信号から複数の音声を抽出することを目的としている。
本稿では,既存の話者分離ソリューションを改善するための2つの話者認識設計を提案する。
第1のモデルは、音声サンプルを統合して個別化された話者条件を生成し、分離モジュールが適切に分離された出力を生成するためのインフォームドガイダンスを提供する話者条件ネットワークである。
第2の設計は、分離音声における非目標音声の削減を目的としている。
この目的のために,チャネル出力における非目標音声の出現をペナルティ化するための負距離と,分離された音声をクリーンターゲットに近づけるための正距離を提案する。
重み付きサムとトリプレットのような2つの異なるセットアップを探索し、これら2つの距離を統合して分離ネットワークの補助損失を形成する。
LibriMixで行った実験は,提案モデルの有効性を実証する。
関連論文リスト
- RAVSS: Robust Audio-Visual Speech Separation in Multi-Speaker Scenarios with Missing Visual Cues [45.095482324156606]
本稿では,複数話者の同時分離を容易にするマルチ話者分離フレームワークを提案する。
VoxCeleb2 と LRS3 のデータセットによる実験結果から,2, 3, 4, 5 話者を分離した場合に,本手法が最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2024-07-27T09:56:23Z) - Online speaker diarization of meetings guided by speech separation [0.0]
重複した音声は、話者ダイアリゼーションシステムに問題があることで知られている。
長時間録音のオンライン話者ダイアリゼーションに適した音声分離誘導ダイアリゼーション方式を提案する。
論文 参考訳(メタデータ) (2024-01-30T09:09:22Z) - Monaural Multi-Speaker Speech Separation Using Efficient Transformer
Model [0.0]
月次多話者音声分離」はトランスフォーマーアーキテクチャとその効率的な形式に基づく音声分離モデルを示す。
このモデルは、多様な話者の発話を含むLibriMixデータセットでトレーニングされている。
論文 参考訳(メタデータ) (2023-07-29T15:10:46Z) - Multi-Dimensional and Multi-Scale Modeling for Speech Separation
Optimized by Discriminative Learning [9.84949849886926]
音声分離のためのSE変換器とISCIT(Intra-SE-Conformer and Inter-Transformer)
新しいネットワークSE-Conformerは、複数の次元とスケールでオーディオシーケンスをモデル化できる。
論文 参考訳(メタデータ) (2023-03-07T08:53:20Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - Single channel voice separation for unknown number of speakers under
reverberant and noisy settings [106.48335929548875]
未知話者の音声分離のための統一ネットワークを提案する。
提案手法は話者分類枝とともに最適化された複数の分離ヘッドから構成される。
最大5人の話者が同時に話す新しい雑音と残響のデータセットを提示する。
論文 参考訳(メタデータ) (2020-11-04T14:59:14Z) - FragmentVC: Any-to-Any Voice Conversion by End-to-End Extracting and
Fusing Fine-Grained Voice Fragments With Attention [66.77490220410249]
本稿では、Wav2Vec 2.0から、音源話者からの発声の潜在音声構造を求めるFragmentVCを提案する。
FragmentVCは、ターゲット話者発話からきめ細かい音声断片を抽出し、所望の発話に融合することができる。
提案手法は, コンテンツと話者情報との絡み合いを考慮せずに, 再構成損失を学習する。
論文 参考訳(メタデータ) (2020-10-27T09:21:03Z) - Speaker Separation Using Speaker Inventories and Estimated Speech [78.57067876891253]
話者在庫(SSUSI)と推定音声(SSUES)を用いた話者分離を提案する。
置換不変訓練(PIT)と音声抽出の利点を組み合わせることで、SSUSIは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2020-10-20T18:15:45Z) - Continuous Speech Separation with Conformer [60.938212082732775]
分離システムでは、リカレントニューラルネットワークの代わりにトランスとコンバータを用いる。
我々は,自己注意に基づく方法でグローバルな情報を取得することが,音声分離に不可欠であると信じている。
論文 参考訳(メタデータ) (2020-08-13T09:36:05Z) - Improving speaker discrimination of target speech extraction with
time-domain SpeakerBeam [100.95498268200777]
SpeakerBeamは、ターゲット話者の適応発話を利用して、声の特徴を抽出する。
SpeakerBeamは、同じジェンダーのミキシングのように、話者が似たような音声特性を持つときに失敗することがある。
実験により、これらの戦略は、特に同性混合において、音声抽出性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2020-01-23T05:36:06Z) - Supervised Speaker Embedding De-Mixing in Two-Speaker Environment [37.27421131374047]
音源分離のような信号空間で2つの話者信号を分離する代わりに,話者埋め込み型デミックス方式を提案する。
提案手法は、埋め込み空間における2つの話者信号と異なる話者特性を分離する。
論文 参考訳(メタデータ) (2020-01-14T20:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。