論文の概要: Teacher-Student MixIT for Unsupervised and Semi-supervised Speech
Separation
- arxiv url: http://arxiv.org/abs/2106.07843v1
- Date: Tue, 15 Jun 2021 02:26:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-16 15:05:27.621984
- Title: Teacher-Student MixIT for Unsupervised and Semi-supervised Speech
Separation
- Title(参考訳): 教師と教師の混合による教師なし・半教師なし音声分離
- Authors: Jisi Zhang, Catalin Zorila, Rama Doddipatla, Jon Barker
- Abstract要約: エンド・ツー・エンド音声分離のための新しい半教師付き学習フレームワークを提案する。
提案手法はまず,教師モデルを訓練するために,未分離音源と混合不変訓練基準の混合を用いる。
単一チャネルと複数チャネルの混合実験により,教師と学生の学習がオーバーセパレーションの問題を解決することを示した。
- 参考スコア(独自算出の注目度): 27.19635746008699
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce a novel semi-supervised learning framework for
end-to-end speech separation. The proposed method first uses mixtures of
unseparated sources and the mixture invariant training (MixIT) criterion to
train a teacher model. The teacher model then estimates separated sources that
are used to train a student model with standard permutation invariant training
(PIT). The student model can be fine-tuned with supervised data, i.e., paired
artificial mixtures and clean speech sources, and further improved via model
distillation. Experiments with single and multi channel mixtures show that the
teacher-student training resolves the over-separation problem observed in the
original MixIT method. Further, the semisupervised performance is comparable to
a fully-supervised separation system trained using ten times the amount of
supervised data.
- Abstract(参考訳): 本稿では,エンドツーエンド音声分離のための半教師付き学習フレームワークを提案する。
提案手法はまず,教師モデルを訓練するために,未分離音源と混合不変訓練基準(MixIT)を用いた。
教師モデルは、標準変分不変訓練(PIT)で学生モデルを訓練するために使用される分離された情報源を推定する。
学生モデルは、教師付きデータ、すなわちペア人工混合物とクリーン音声源で微調整することができ、さらにモデルの蒸留により改善される。
単一チャネルと複数チャネルの混合実験により,MixIT法で観測されたオーバーセパレーション問題を教師と学生の学習で解決することを示した。
さらに、半教師付き性能は、教師付きデータの10倍の量で訓練された完全教師付き分離システムに匹敵する。
関連論文リスト
- Mix from Failure: Confusion-Pairing Mixup for Long-Tailed Recognition [14.009773753739282]
ロングテール画像認識は、人工的な制服ではなく、現実世界のクラス分布を考慮した問題である。
本稿では,マイノリティクラスにおけるサンプルの多様性を高めるために,トレーニングデータセットの強化という,異なる観点からの問題に取り組む。
本手法,すなわち Confusion-Pairing Mixup (CP-Mix) は,モデルの混乱分布を推定し,データ不足問題に対処する。
論文 参考訳(メタデータ) (2024-11-12T08:08:31Z) - Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。
トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。
提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文 参考訳(メタデータ) (2024-03-25T17:14:00Z) - Task-customized Masked AutoEncoder via Mixture of Cluster-conditional
Experts [104.9871176044644]
Masked Autoencoder (MAE) は,モデル事前学習において有望な結果が得られる自己教師型学習手法である。
我々は、新しいMAEベースの事前学習パラダイム、Mixture of Cluster-conditional Experts (MoCE)を提案する。
MoCEは、クラスタ条件ゲートを使用して、各専門家にセマンティックなイメージのみをトレーニングする。
論文 参考訳(メタデータ) (2024-02-08T03:46:32Z) - Twice Class Bias Correction for Imbalanced Semi-Supervised Learning [59.90429949214134]
textbfTwice textbfClass textbfBias textbfCorrection (textbfTCBC) と呼ばれる新しいアプローチを導入する。
トレーニング過程におけるモデルパラメータのクラスバイアスを推定する。
非ラベル標本に対してモデルの擬似ラベルに二次補正を適用する。
論文 参考訳(メタデータ) (2023-12-27T15:06:36Z) - Alternate Diverse Teaching for Semi-supervised Medical Image Segmentation [62.021828104757745]
そこで我々は,教師-学生の枠組みにおける多様な教育手法であるAD-MTを提案する。
一人の生徒モデルと2つの訓練不可能な教師モデルがあり、それは定期的に、ランダムに、別の方法で、モーメントを更新する。
論文 参考訳(メタデータ) (2023-11-29T02:44:54Z) - Unsupervised Source Separation via Self-Supervised Training [0.913755431537592]
単一チャネルの2音源混合音声からの自己教師付き訓練を含む2つの新しい非教師付き音源分離手法を提案する。
最初の方法は、置換不変性トレーニング(PIT)を用いて、人工的に生成した混合物を元の混合物に分離する。
我々は、この最初の方法を改善するために、ソース推定の混合物を作成し、PITを用いてこれらの新しい混合物を循環的に分離する。
私たちは、MixPITが私たちの小さなデータセット(SC09Mix)で共通のベースライン(MixIT)より優れており、標準データセット(LibriMix)で同等のパフォーマンスを持つことを示す。
論文 参考訳(メタデータ) (2022-02-08T14:02:50Z) - Unsupervised Audio Source Separation Using Differentiable Parametric
Source Models [8.80867379881193]
本研究では,教師なしモデルに基づく深層学習手法を提案する。
ニューラルネットワークは、観測された混合物をソースの和として再構成するように訓練される。
音声アンサンブル分離タスクの実験評価により,提案手法が学習自由法より優れていることが示された。
論文 参考訳(メタデータ) (2022-01-24T11:05:30Z) - Boosting Discriminative Visual Representation Learning with
Scenario-Agnostic Mixup [54.09898347820941]
自己教師付き学習(SSL)と教師付き学習(SL)の両方のシナリオに対して,textbfScenario-textbfAgnostic textbfMixup (SAMix)を提案する。
具体的には、2つの混合クラス間の局所的な滑らかさを最適化するために、混合生成の目的関数を仮説化し、検証する。
非自明な混合サンプルを効果的に提供し、転送可能な能力を向上させるラベルフリーな生成サブネットワークを設計する。
論文 参考訳(メタデータ) (2021-11-30T14:49:59Z) - Continual self-training with bootstrapped remixing for speech
enhancement [32.68203972471562]
RemixITは、音声強調のためのシンプルで斬新な自己教師型訓練手法である。
実験の結果,RemixITは従来の最先端の自己管理手法よりも優れていた。
論文 参考訳(メタデータ) (2021-10-19T16:56:18Z) - ReMix: Towards Image-to-Image Translation with Limited Data [154.71724970593036]
本稿では,この問題に対処するためのデータ拡張手法(ReMix)を提案する。
特徴レベルでのトレーニングサンプルを補間し、サンプル間の知覚的関係に基づく新しいコンテンツ損失を提案します。
提案手法は, 生成のあいまいさを効果的に低減し, コンテンツ保存結果を生成する。
論文 参考訳(メタデータ) (2021-03-31T06:24:10Z) - Unsupervised Sound Separation Using Mixture Invariant Training [38.0680944898427]
音声分離における教師あり手法と比較して,MixITは競争性能を向上できることを示す。
特に,残響混合を組み込むことで残響分離性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-06-23T02:22:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。