論文の概要: Separating Varying Numbers of Sources with Auxiliary Autoencoding Loss
- arxiv url: http://arxiv.org/abs/2003.12326v2
- Date: Tue, 18 Aug 2020 04:07:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 05:39:07.312937
- Title: Separating Varying Numbers of Sources with Auxiliary Autoencoding Loss
- Title(参考訳): 補助的な自己エンコーディング損失を伴う各種ソースの分離
- Authors: Yi Luo, Nima Mesgarani
- Abstract要約: A2PITは、様々な話者間での分離性能を改善し、混合話者数を効果的に検出することができる。
A2PITは一定数の出力を仮定し、補助的な自動符号化損失を使用して、無効な出力を入力混合物のコピーに強制する。
- 参考スコア(独自算出の注目度): 31.981984005858298
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Many recent source separation systems are designed to separate a fixed number
of sources out of a mixture. In the cases where the source activation patterns
are unknown, such systems have to either adjust the number of outputs or to
identify invalid outputs from the valid ones. Iterative separation methods have
gain much attention in the community as they can flexibly decide the number of
outputs, however (1) they typically rely on long-term information to determine
the stopping time for the iterations, which makes them hard to operate in a
causal setting; (2) they lack a "fault tolerance" mechanism when the estimated
number of sources is different from the actual number. In this paper, we
propose a simple training method, the auxiliary autoencoding permutation
invariant training (A2PIT), to alleviate the two issues. A2PIT assumes a fixed
number of outputs and uses auxiliary autoencoding loss to force the invalid
outputs to be the copies of the input mixture, and detects invalid outputs in a
fully unsupervised way during inference phase. Experiment results show that
A2PIT is able to improve the separation performance across various numbers of
speakers and effectively detect the number of speakers in a mixture.
- Abstract(参考訳): 最近の多くのソース分離システムは、一定の数のソースを混合から分離するように設計されている。
ソースアクティベーションパターンが未知の場合、これらのシステムは出力数を調整するか、有効な出力から無効な出力を識別する必要がある。
反復的分離法は, アウトプット数を柔軟に決定できるため, コミュニティにおいて注目されているが, 1) 典型的には, 反復の停止時間を決定するための長期情報に依存しているため, 因果的環境での運用が困難である; (2) 推定されたソース数と実際の数とが異なる場合に, フォールトトレランス機構が欠如している。
本稿では,2つの問題を緩和するために,簡易なトレーニング手法A2PITを提案する。
A2PITは、一定数の出力を仮定し、補助的なオートエンコード損失を使用して、無効な出力を入力混合物のコピーに強制し、推論フェーズ中に完全に教師なしの方法で無効な出力を検出する。
実験の結果,A2PITは様々な話者間の分離性能を向上し,混合話者数を効果的に検出できることがわかった。
関連論文リスト
- Continual Learning in the Frequency Domain [22.415936450558334]
周波数領域における連続学習(CLFD)と呼ばれる新しいフレームワークを提案する。
特徴抽出器の入力特徴について、CLFDはウェーブレット変換を用いて元の入力画像を周波数領域にマッピングする。
クラウド環境とエッジ環境の両方で実施された実験により、CLFDは精度とトレーニング効率の両方において、最先端(SOTA)手法の性能を一貫して改善することが示された。
論文 参考訳(メタデータ) (2024-10-09T07:57:47Z) - Multiple Hypothesis Dropout: Estimating the Parameters of Multi-Modal
Output Distributions [22.431244647796582]
本稿では,複数出力関数(Multiple-Output function, MoM)の解法について, 新たな解法であるMultiple hypothesis Dropoutを用いて提案する。
教師付き学習問題に対する実験は、我々の手法がマルチモーダルな出力分布を再構築するための既存のソリューションよりも優れていることを示している。
教師なし学習問題に関するさらなる研究は、離散オートエンコーダ内の潜在後続分布のパラメータを推定することで、コードブックの効率、サンプル品質、精度、リコールを大幅に改善することを示している。
論文 参考訳(メタデータ) (2023-12-18T22:20:11Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Simultaneous source separation of unknown numbers of single-channel underwater acoustic signals based on deep neural networks with separator-decoder structure [0.0]
本稿では,可能なターゲットの最大数に等しい一定数の出力チャネルを持つ,深層学習に基づく同時分離ソリューションを提案する。
この解は、目標への出力のアライメントによって引き起こされる置換問題による次元的災害を回避する。
放射音の混合を模擬した実験により, 提案手法は, 既知信号数と同等の分離性能が得られることを示した。
論文 参考訳(メタデータ) (2022-07-24T14:04:34Z) - MIMO-DoAnet: Multi-channel Input and Multiple Outputs DoA Network with
Unknown Number of Sound Sources [56.41687729076406]
近年のニューラルネットワークに基づくDorion of Arrival (DoA)推定アルゴリズムは,未知数の音源シナリオでよく機能している。
これらのアルゴリズムは通常、MISOと呼ばれる単一の出力(全ソースの空間的擬似スペクトル(SPS))にマルチチャンネルオーディオ入力をマッピングすることで達成される。
本稿では,SPS SPIE-DoAnetと呼ばれる新しいマルチチャネル入力と複数出力DoAネットワークを提案し,これらの制約に対処する。
論文 参考訳(メタデータ) (2022-07-15T06:18:00Z) - Iterative Sound Source Localization for Unknown Number of Sources [57.006589498243336]
終端基準を満たすまで、各音源のDOAをしきい値なしで反復的に抽出できるISSLと呼ばれる反復音源定位手法を提案する。
我々のISSLは、既存のしきい値ベースのアルゴリズムと比較して、DOA推定とソース番号検出の両方で大幅な性能改善を実現しています。
論文 参考訳(メタデータ) (2022-06-24T13:19:44Z) - FastCorrect 2: Fast Error Correction on Multiple Candidates for
Automatic Speech Recognition [92.12910821300034]
本稿では,複数のASR候補を入力として取り込んだ誤り訂正モデルFastCorrect 2を提案する。
FastCorrect 2は、カスケードされた再描画と修正パイプラインよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-09-29T13:48:03Z) - Transcription Is All You Need: Learning to Separate Musical Mixtures
with Score as Supervision [42.029811695104385]
音源分離システムのトレーニングには音楽スコアを弱いラベルとして使用する。
我々のシステムは独立した情報源を必要とせず、スコアはトレーニング対象としてのみ使用され、推論には必要ではない。
論文 参考訳(メタデータ) (2020-10-22T17:38:40Z) - Multi-talker ASR for an unknown number of sources: Joint training of
source counting, separation and ASR [91.87500543591945]
能動話者の未知数に対するエンドツーエンドマルチストーカー自動音声認識システムを開発した。
実験の結果,精度,音源分離,音声認識において有望な性能を示した。
我々のシステムは、トレーニング中に見たよりも多くの話者によく当てはまる。
論文 参考訳(メタデータ) (2020-06-04T11:25:50Z) - The Binary-Outcome Detection Loophole [0.0]
2つのパーティと2つの結果を持つすべての非シグナリング分布に対して、直感的な局所的な隠れ変数の構成を示す。
これにより、量子測定における検出しきい値の低いバウンダリが、以前よりも厳密な同じシナリオで提供される。
論文 参考訳(メタデータ) (2020-05-07T09:19:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。