論文の概要: On Data Sampling Strategies for Training Neural Network Speech
Separation Models
- arxiv url: http://arxiv.org/abs/2304.07142v2
- Date: Fri, 16 Jun 2023 13:42:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 17:14:01.818798
- Title: On Data Sampling Strategies for Training Neural Network Speech
Separation Models
- Title(参考訳): ニューラルネットワーク音声分離モデルの訓練のためのデータサンプリング戦略について
- Authors: William Ravenscroft and Stefan Goetze and Thomas Hain
- Abstract要約: 音声分離は多話者信号処理の重要な領域である。
ディープニューラルネットワーク(DNN)モデルは、多くの音声分離ベンチマークで最高のパフォーマンスを達成した。
これらのモデルの中には、トレーニングにかなりの時間を要するものもあり、高いメモリ要求がある。
これまでの研究では、これらの問題に対処するトレーニング例を短縮することを提案したが、モデルパフォーマンスへの影響はまだよく分かっていない。
- 参考スコア(独自算出の注目度): 26.94528951545861
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech separation remains an important area of multi-speaker signal
processing. Deep neural network (DNN) models have attained the best performance
on many speech separation benchmarks. Some of these models can take significant
time to train and have high memory requirements. Previous work has proposed
shortening training examples to address these issues but the impact of this on
model performance is not yet well understood. In this work, the impact of
applying these training signal length (TSL) limits is analysed for two speech
separation models: SepFormer, a transformer model, and Conv-TasNet, a
convolutional model. The WJS0-2Mix, WHAMR and Libri2Mix datasets are analysed
in terms of signal length distribution and its impact on training efficiency.
It is demonstrated that, for specific distributions, applying specific TSL
limits results in better performance. This is shown to be mainly due to
randomly sampling the start index of the waveforms resulting in more unique
examples for training. A SepFormer model trained using a TSL limit of 4.42s and
dynamic mixing (DM) is shown to match the best-performing SepFormer model
trained with DM and unlimited signal lengths. Furthermore, the 4.42s TSL limit
results in a 44% reduction in training time with WHAMR.
- Abstract(参考訳): 音声分離は、マルチスピーカー信号処理の重要な領域である。
ディープニューラルネットワーク(DNN)モデルは、多くの音声分離ベンチマークで最高のパフォーマンスを達成した。
これらのモデルのいくつかは、トレーニングにかなりの時間を要し、高いメモリ要件を持つ。
これまでの研究では、これらの問題に対処するトレーニング例を短縮することを提案したが、モデルパフォーマンスへの影響はまだよく分かっていない。
本研究では,これらの訓練信号長(tsl)制限を適用した影響を,トランスフォーマモデルsepformerと畳み込みモデルconv-tasnetの2つの音声分離モデルで解析した。
wjs0-2mix、whamr、libri2mixデータセットは、信号長分布とトレーニング効率への影響によって分析される。
特定の分布に対して、特定のTSL制限を適用すると、より良い性能が得られることが示されている。
これは主に波形の開始指数をランダムにサンプリングし、トレーニングのよりユニークな例をもたらすことが示されている。
TSL制限4.42と動的混合(DM)を用いて訓練されたSepFormerモデルは、DMと無制限信号長で訓練された最高の性能のSepFormerモデルと一致している。
さらに、4.42s TSL制限は、WHAMRによるトレーニング時間の44%削減をもたらす。
関連論文リスト
- Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - TRAK: Attributing Model Behavior at Scale [79.56020040993947]
本稿では,大規模な微分モデルに対して有効かつ計算的に抽出可能なデータ属性法であるTRAK(Tracing with Randomly-trained After Kernel)を提案する。
論文 参考訳(メタデータ) (2023-03-24T17:56:22Z) - MooseNet: A Trainable Metric for Synthesized Speech with a PLDA Module [3.42658286826597]
聴取者の平均オピニオンスコア(MOS)を予測する訓練可能な音声メトリックであるMooseNetを提案する。
本稿では,確率線形識別分析(PLDA)生成モデルを用いた新しい手法を提案する。
PLDAは136の発話でのみ訓練された場合,非微細なSSLモデルでうまく機能することを示す。
論文 参考訳(メタデータ) (2023-01-17T18:53:15Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Model Extraction Attack against Self-supervised Speech Models [52.81330435990717]
自己教師付き学習(SSL)音声モデルは、与えられたクリップの有意義な表現を生成する。
モデル抽出攻撃 (MEA) は、しばしば、クエリアクセスのみで被害者モデルの機能を盗む敵を指す。
本稿では,少数のクエリを用いたSSL音声モデルに対するMEA問題について検討する。
論文 参考訳(メタデータ) (2022-11-29T09:28:05Z) - Evidence of Vocal Tract Articulation in Self-Supervised Learning of
Speech [15.975756437343742]
最近の自己教師付き学習(SSL)モデルは、音声の豊かな表現を学習することが証明されている。
EMA(Electronic Articulography)による音声表現と音声軌跡を関連付けるための包括的分析を行う。
以上の結果から, SSLモデルは連続的な調音と密接に一致し, 音声SSLに関する新たな知見を提供する。
論文 参考訳(メタデータ) (2022-10-21T04:24:29Z) - Match to Win: Analysing Sequences Lengths for Efficient Self-supervised
Learning in Speech and Audio [19.865050806327147]
自己教師型学習は、音声および音声関連アプリケーションにおいて不可欠であることが証明されている。
本稿では、特定配列長の異なるSSL事前トレーニングに関する最初の実証的研究について述べる。
ショートシーケンスでのトレーニングは、すべてのタスクで満足なパフォーマンスを維持しながら、リソースコストを劇的に削減できることがわかった。
論文 参考訳(メタデータ) (2022-09-30T16:35:42Z) - METRO: Efficient Denoising Pretraining of Large Scale Autoencoding
Language Models with Model Generated Signals [151.3601429216877]
本稿では,補助モデルにより生成された学習信号を用いて,大規模自動符号化言語モデルの事前学習を行う。
我々は「モデル生成dEnoising TRaining Objective」(METRO)というレシピを提案する。
結果、最大54億のパラメータからなるMETRO-LMは、GLUE、SuperGLUE、SQuADベンチマークで新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-04-13T21:39:15Z) - Tackling the Problem of Limited Data and Annotations in Semantic
Segmentation [1.0152838128195467]
画像セグメンテーションにおける限られたデータアノテーションの問題に対処するために、異なる事前訓練されたモデルとCRFベースの手法を適用した。
この目的のために、RotNet、DeeperCluster、Semi&Weakly Supervised Learning (SWSL)が事前訓練されたモデルをDeepLab-v2ベースラインで転送、微調整する。
その結果、この小さなデータセットでは、事前トレーニングされたResNet50 SWSLモデルを使用することで、ImageNet事前トレーニングされたモデルよりも7.4%良い結果が得られることがわかった。
論文 参考訳(メタデータ) (2020-07-14T21:11:11Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。