論文の概要: Continual self-training with bootstrapped remixing for speech
enhancement
- arxiv url: http://arxiv.org/abs/2110.10103v1
- Date: Tue, 19 Oct 2021 16:56:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-20 16:35:22.794625
- Title: Continual self-training with bootstrapped remixing for speech
enhancement
- Title(参考訳): 音声強調のためのブートストラップリミックスによる連続自己学習
- Authors: Efthymios Tzinis, Yossi Adi, Vamsi K. Ithapu, Buye Xu, Anurag Kumar
- Abstract要約: RemixITは、音声強調のためのシンプルで斬新な自己教師型訓練手法である。
実験の結果,RemixITは従来の最先端の自己管理手法よりも優れていた。
- 参考スコア(独自算出の注目度): 32.68203972471562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose RemixIT, a simple and novel self-supervised training method for
speech enhancement. The proposed method is based on a continuously
self-training scheme that overcomes limitations from previous studies including
assumptions for the in-domain noise distribution and having access to clean
target signals. Specifically, a separation teacher model is pre-trained on an
out-of-domain dataset and is used to infer estimated target signals for a batch
of in-domain mixtures. Next, we bootstrap the mixing process by generating
artificial mixtures using permuted estimated clean and noise signals. Finally,
the student model is trained using the permuted estimated sources as targets
while we periodically update teacher's weights using the latest student model.
Our experiments show that RemixIT outperforms several previous state-of-the-art
self-supervised methods under multiple speech enhancement tasks. Additionally,
RemixIT provides a seamless alternative for semi-supervised and unsupervised
domain adaptation for speech enhancement tasks, while being general enough to
be applied to any separation task and paired with any separation model.
- Abstract(参考訳): 音声強調のための簡易かつ新しい自己教師型訓練手法であるRemixITを提案する。
提案手法は,領域内雑音分布の仮定やクリーンターゲット信号へのアクセスなど,従来研究の限界を克服した連続的自己学習方式に基づいている。
具体的には、分離教師モデルがドメイン外データセットで事前トレーニングされ、ドメイン内混合物のバッチに対する推定ターゲット信号を推測するために使用される。
次に, 推定クリーンおよびノイズ信号を用いた人工混合を生成させ, 混合過程をブートストラップする。
最後に、教師の重みを最新の学生モデルで定期的に更新する間、学生モデルは、変量推定源をターゲットとして訓練する。
実験の結果,RemixITは複数の音声強調タスクにおいて,従来の最先端の自己教師手法よりも優れていた。
さらに、RemixITは、音声強調タスクのための半教師付きおよび教師なしのドメイン適応のシームレスな代替を提供するが、任意の分離タスクに適用でき、任意の分離モデルと組み合わせられるほど一般的である。
関連論文リスト
- One More Step: A Versatile Plug-and-Play Module for Rectifying Diffusion
Schedule Flaws and Enhancing Low-Frequency Controls [77.42510898755037]
One More Step (OMS) は、推論中に単純だが効果的なステップを付加したコンパクトネットワークである。
OMSは画像の忠実度を高め、トレーニングと推論の二分法を調和させ、元のモデルパラメータを保存する。
トレーニングが完了すると、同じ潜在ドメインを持つ様々な事前訓練された拡散モデルが同じOMSモジュールを共有することができる。
論文 参考訳(メタデータ) (2023-11-27T12:02:42Z) - Diffusion-based speech enhancement with a weighted generative-supervised
learning loss [0.0]
拡散に基づく生成モデルは近年,音声強調(SE)において注目を集めている。
そこで本研究では,従来の拡散訓練目標を平均二乗誤差(MSE)損失で拡張することを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:35Z) - RanPAC: Random Projections and Pre-trained Models for Continual Learning [59.07316955610658]
継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を学習することを目的としている。
本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-07-05T12:49:02Z) - Just One Byte (per gradient): A Note on Low-Bandwidth Decentralized
Language Model Finetuning Using Shared Randomness [86.61582747039053]
分散環境での言語モデルトレーニングは、交換の通信コストによって制限される。
分散微調整を低帯域幅で行うために,共有ランダムネスを用いた最近の作業を拡張した。
論文 参考訳(メタデータ) (2023-06-16T17:59:51Z) - MAPS: A Noise-Robust Progressive Learning Approach for Source-Free
Domain Adaptive Keypoint Detection [76.97324120775475]
クロスドメインキーポイント検出方法は、常に適応中にソースデータにアクセスする必要がある。
本稿では、ターゲット領域に十分に訓練されたソースモデルのみを提供する、ソースフリーなドメイン適応キーポイント検出について考察する。
論文 参考訳(メタデータ) (2023-02-09T12:06:08Z) - Self-Adapting Noise-Contrastive Estimation for Energy-Based Models [0.0]
ノイズコントラスト推定(NCE)を用いたトレーニングエネルギーベースモデルは理論的には実現可能であるが、実際は困難である。
従来の研究は、別個の生成モデルとしてノイズ分布をモデル化し、EBMでこのノイズモデルを同時に訓練してきた。
本論文では,EMMの静的なインスタンスを学習軌道に沿って雑音分布として利用する自己適応型NCEアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-03T15:17:43Z) - Speech Enhancement and Dereverberation with Diffusion-based Generative
Models [14.734454356396157]
本稿では,微分方程式に基づく拡散過程について概説する。
提案手法により,30段階の拡散しか行わず,高品質なクリーン音声推定が可能であることを示す。
大規模なクロスデータセット評価では、改良された手法が近年の識別モデルと競合することを示す。
論文 参考訳(メタデータ) (2022-08-11T13:55:12Z) - RemixIT: Continual self-training of speech enhancement models via
bootstrapped remixing [41.77753005397551]
RemixITは、単一の独立したドメイン内音声やノイズ波形を必要とせずに、音声強調を自己指導する手法である。
RemixITは任意の分離モデルと組み合わせることができ、半教師なしおよび教師なしのドメイン適応タスクにも適用可能であることを示す。
論文 参考訳(メタデータ) (2022-02-17T19:07:29Z) - Teacher-Student MixIT for Unsupervised and Semi-supervised Speech
Separation [27.19635746008699]
エンド・ツー・エンド音声分離のための新しい半教師付き学習フレームワークを提案する。
提案手法はまず,教師モデルを訓練するために,未分離音源と混合不変訓練基準の混合を用いる。
単一チャネルと複数チャネルの混合実験により,教師と学生の学習がオーバーセパレーションの問題を解決することを示した。
論文 参考訳(メタデータ) (2021-06-15T02:26:42Z) - Jo-SRC: A Contrastive Approach for Combating Noisy Labels [58.867237220886885]
Jo-SRC (Joint Sample Selection and Model Regularization based on Consistency) というノイズロバスト手法を提案する。
具体的には、対照的な学習方法でネットワークをトレーニングする。
各サンプルの2つの異なるビューからの予測は、クリーンまたは分布不足の「可能性」を推定するために使用されます。
論文 参考訳(メタデータ) (2021-03-24T07:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。