論文の概要: Adversarial Permutation Invariant Training for Universal Sound
Separation
- arxiv url: http://arxiv.org/abs/2210.12108v1
- Date: Fri, 21 Oct 2022 17:04:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 16:25:43.877312
- Title: Adversarial Permutation Invariant Training for Universal Sound
Separation
- Title(参考訳): 普遍的音分離のための逆順置換不変訓練
- Authors: Emilian Postolache, Jordi Pons, Santiago Pascual, Joan Serr\`a
- Abstract要約: 本研究では,PIT(Permutation Invariant Training)と敵対的損失を補完するが,音声音源分離における標準定式化は困難である。
我々はこの課題を、新しいI-置換文脈に基づく敵意の喪失と、複数の差別者による訓練によって克服する。
実験の結果, 残響FUSSデータセットにおいて, 損失(同一モデルとデータセットの保持)を単純に改善することで, 1.4dB SI-SNRiの非無視改善が得られることがわかった。
- 参考スコア(独自算出の注目度): 23.262892768718824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Universal sound separation consists of separating mixes with arbitrary sounds
of different types, and permutation invariant training (PIT) is used to train
source agnostic models that do so. In this work, we complement PIT with
adversarial losses but find it challenging with the standard formulation used
in speech source separation. We overcome this challenge with a novel
I-replacement context-based adversarial loss, and by training with multiple
discriminators. Our experiments show that by simply improving the loss (keeping
the same model and dataset) we obtain a non-negligible improvement of 1.4 dB
SI-SNRi in the reverberant FUSS dataset. We also find adversarial PIT to be
effective at reducing spectral holes, ubiquitous in mask-based separation
models, which highlights the potential relevance of adversarial losses for
source separation.
- Abstract(参考訳): 普遍的な音分離は、異なる種類の任意の音の混合を分離し、置換不変訓練(PIT)は、それを行う音源に依存しないモデルの訓練に使用される。
本研究は,PITを敵対的損失で補完するが,音声音源分離における標準定式化は困難である。
我々は,新しいi-replacementコンテキストに基づく敵意損失と,複数の識別者による訓練によって,この課題を克服した。
実験の結果, 残響FUSSデータセットにおいて, 損失(同一モデルとデータセットの保持)を単純に改善することで, 1.4dB SI-SNRiの非無視改善が得られることがわかった。
また,スペクトルホールの低減には逆孔が有効であり,マスクベース分離モデルにおいてユビキタスであり,ソース分離における逆孔損失の潜在的関連性を浮き彫りにする。
関連論文リスト
- Single-channel speech enhancement using learnable loss mixup [23.434378634735676]
一般化は、単一チャンネル音声強調の教師あり学習において依然として大きな問題である。
深層学習に基づく音声強調モデルの一般化を改善するため,学習可能損失混合(LLM)を提案する。
VCTKベンチマークによる実験結果から,学習可能な損失混入3.26 PESQは最先端に優れることがわかった。
論文 参考訳(メタデータ) (2023-12-20T00:25:55Z) - Meta-Causal Feature Learning for Out-of-Distribution Generalization [71.38239243414091]
本稿では,協調タスク生成モジュール (BTG) とメタ因果特徴学習モジュール (MCFL) を含む,バランス付きメタ因果学習器 (BMCL) を提案する。
BMCLは、分類のためのクラス不変の視覚領域を効果的に識別し、最先端の手法の性能を向上させるための一般的なフレームワークとして機能する。
論文 参考訳(メタデータ) (2022-08-22T09:07:02Z) - Heterogeneous Target Speech Separation [52.05046029743995]
我々は,非相互排他的概念を用いて興味のあるソースを区別できる単一チャネルターゲットソース分離のための新しいパラダイムを提案する。
提案する異種分離フレームワークは,分散シフトが大きいデータセットをシームレスに利用することができる。
論文 参考訳(メタデータ) (2022-04-07T17:14:20Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Single-channel speech separation using Soft-minimum Permutation
Invariant Training [60.99112031408449]
教師付き音声分離における長寿命問題は、それぞれの分離された音声信号の正しいラベルを見つけることである。
Permutation Invariant Training (PIT) はラベルあいまいさ問題に対処する上で有望な解決策であることが示されている。
そこで本研究では,PITの不効率に対処する確率的最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-16T17:25:05Z) - On permutation invariant training for speech source separation [20.82852423999727]
話者独立音源分離モデルにおける置換あいまいさ問題を対象とした置換不変訓練(PIT)について検討する。
まず,STFT領域に対して提案されたフレームレベルPIT(tPIT)とクラスタリングに基づく2段階話者分離追跡アルゴリズムについて検討する。
第2に、発話レベルPIT(uPIT)による局所的な置換誤差を低減するため、最近提案された「プロブレム非依存音声特徴」に基づく深い特徴損失を伴う補助話者ID損失を拡張した。
論文 参考訳(メタデータ) (2021-02-09T16:57:32Z) - Unsupervised Sound Separation Using Mixture Invariant Training [38.0680944898427]
音声分離における教師あり手法と比較して,MixITは競争性能を向上できることを示す。
特に,残響混合を組み込むことで残響分離性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-06-23T02:22:14Z) - Adaptive Adversarial Logits Pairing [65.51670200266913]
逆行訓練ソリューションであるAdversarial Logits Pairing (ALP)は、脆弱なものに比べて、高い貢献度を少なくする傾向にある。
これらの観測により,適応型対数対数対数対数対数対数法 (AALP) を設計し,ALPのトレーニングプロセスとトレーニングターゲットを変更する。
AALPは適応的な機能最適化モジュールと Guided Dropout から構成されており、より少ない高コントリビューション機能を体系的に追求する。
論文 参考訳(メタデータ) (2020-05-25T03:12:20Z) - When Relation Networks meet GANs: Relation GANs with Triplet Loss [110.7572918636599]
GAN(Generative Adversarial Network)の学習安定性はいまだに悩みの種である
本稿では,判別器のための関係ネットワークアーキテクチャについて検討し,より優れた一般化と安定性を実現する三重項損失を設計する。
ベンチマークデータセットの実験により、提案された関係判別器と新たな損失は、可変視覚タスクに大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-02-24T11:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。