論文の概要: On permutation invariant training for speech source separation
- arxiv url: http://arxiv.org/abs/2102.04945v1
- Date: Tue, 9 Feb 2021 16:57:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-10 14:54:00.977325
- Title: On permutation invariant training for speech source separation
- Title(参考訳): 発話源分離のための置換不変訓練について
- Authors: Xiaoyu Liu and Jordi Pons
- Abstract要約: 話者独立音源分離モデルにおける置換あいまいさ問題を対象とした置換不変訓練(PIT)について検討する。
まず,STFT領域に対して提案されたフレームレベルPIT(tPIT)とクラスタリングに基づく2段階話者分離追跡アルゴリズムについて検討する。
第2に、発話レベルPIT(uPIT)による局所的な置換誤差を低減するため、最近提案された「プロブレム非依存音声特徴」に基づく深い特徴損失を伴う補助話者ID損失を拡張した。
- 参考スコア(独自算出の注目度): 20.82852423999727
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study permutation invariant training (PIT), which targets at the
permutation ambiguity problem for speaker independent source separation models.
We extend two state-of-the-art PIT strategies. First, we look at the two-stage
speaker separation and tracking algorithm based on frame level PIT (tPIT) and
clustering, which was originally proposed for the STFT domain, and we adapt it
to work with waveforms and over a learned latent space. Further, we propose an
efficient clustering loss scalable to waveform models. Second, we extend a
recently proposed auxiliary speaker-ID loss with a deep feature loss based on
"problem agnostic speech features", to reduce the local permutation errors made
by the utterance level PIT (uPIT). Our results show that the proposed
extensions help reducing permutation ambiguity. However, we also note that the
studied STFT-based models are more effective at reducing permutation errors
than waveform-based models, a perspective overlooked in recent studies.
- Abstract(参考訳): 話者独立音源分離モデルにおける置換あいまいさ問題を対象とした置換不変訓練(PIT)について検討する。
最先端のPIT戦略を2つ拡張する。
まず,sftドメインで当初提案されていたフレームレベルピット(tpit)とクラスタリングに基づく2段階の話者分離・追跡アルゴリズムについて検討し,波形や学習された潜在空間上での処理に適応する。
さらに,波形モデルに適用可能な効率的なクラスタリング損失を提案する。
第二に, 発話レベルPIT (uPIT) による局所的置換誤差を低減するため, 話者識別音声特徴に基づく深部特徴損失を伴った最近提案された補助話者ID損失を拡張した。
提案された拡張が置換のあいまいさを軽減することを示した。
しかし,本研究のSTFTモデルの方が波形モデルよりも置換誤差の低減に有効であることに留意すべきである。
関連論文リスト
- High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z) - PTP: Boosting Stability and Performance of Prompt Tuning with
Perturbation-Based Regularizer [94.23904400441957]
損失景観を平滑化できる摂動型正規化器を即時チューニングに導入する。
我々は乱数ノイズベースと逆数ベースを含む2種類の摂動型正規化器を設計する。
我々の新しいアルゴリズムは,SuperGLUEベンチマークとFewGLUEベンチマークでそれぞれ1.94%,2.34%の最先端のプロンプトチューニング手法を改善した。
論文 参考訳(メタデータ) (2023-05-03T20:30:51Z) - Adversarial Permutation Invariant Training for Universal Sound
Separation [23.262892768718824]
本研究では,PIT(Permutation Invariant Training)と敵対的損失を補完するが,音声音源分離における標準定式化は困難である。
我々はこの課題を、新しいI-置換文脈に基づく敵意の喪失と、複数の差別者による訓練によって克服する。
実験の結果, 残響FUSSデータセットにおいて, 損失(同一モデルとデータセットの保持)を単純に改善することで, 1.4dB SI-SNRiの非無視改善が得られることがわかった。
論文 参考訳(メタデータ) (2022-10-21T17:04:17Z) - DisC-VC: Disentangled and F0-Controllable Neural Voice Conversion [17.83563578034567]
補助的ネットワークを伴う変分オートコーダに基づく音声変換モデルを提案する。
提案手法の有効性を客観評価および主観評価により示す。
論文 参考訳(メタデータ) (2022-10-20T07:30:07Z) - Single-channel speech separation using Soft-minimum Permutation
Invariant Training [60.99112031408449]
教師付き音声分離における長寿命問題は、それぞれの分離された音声信号の正しいラベルを見つけることである。
Permutation Invariant Training (PIT) はラベルあいまいさ問題に対処する上で有望な解決策であることが示されている。
そこで本研究では,PITの不効率に対処する確率的最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-16T17:25:05Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z) - Deep Semantic Matching with Foreground Detection and Cycle-Consistency [103.22976097225457]
深層ネットワークに基づく弱い教師付きセマンティックマッチングに対処する。
本研究では,背景乱れの影響を抑えるために,前景領域を明示的に推定する。
複数の画像にまたがって予測変換を強制し、幾何的に可視かつ一貫したサイクル一貫性の損失を発生させる。
論文 参考訳(メタデータ) (2020-03-31T22:38:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。