論文の概要: Single-channel speech enhancement using learnable loss mixup
- arxiv url: http://arxiv.org/abs/2312.17255v1
- Date: Wed, 20 Dec 2023 00:25:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 12:48:40.877185
- Title: Single-channel speech enhancement using learnable loss mixup
- Title(参考訳): 学習可能な損失混合を用いた単チャンネル音声強調
- Authors: Oscar Chang, Dung N. Tran, Kazuhito Koishida
- Abstract要約: 一般化は、単一チャンネル音声強調の教師あり学習において依然として大きな問題である。
深層学習に基づく音声強調モデルの一般化を改善するため,学習可能損失混合(LLM)を提案する。
VCTKベンチマークによる実験結果から,学習可能な損失混入3.26 PESQは最先端に優れることがわかった。
- 参考スコア(独自算出の注目度): 23.434378634735676
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generalization remains a major problem in supervised learning of
single-channel speech enhancement. In this work, we propose learnable loss
mixup (LLM), a simple and effortless training diagram, to improve the
generalization of deep learning-based speech enhancement models. Loss mixup, of
which learnable loss mixup is a special variant, optimizes a mixture of the
loss functions of random sample pairs to train a model on virtual training data
constructed from these pairs of samples. In learnable loss mixup, by
conditioning on the mixed data, the loss functions are mixed using a non-linear
mixing function automatically learned via neural parameterization. Our
experimental results on the VCTK benchmark show that learnable loss mixup
achieves 3.26 PESQ, outperforming the state-of-the-art.
- Abstract(参考訳): 一般化は単一チャンネル音声強調の教師あり学習において依然として大きな問題である。
本研究では,深層学習に基づく音声強調モデルの一般化を改善するために,単純で無力な学習ダイアグラムである学習可能損失混合(llm)を提案する。
学習可能な損失混合が特別な変種であるロスミックスアップは、ランダムサンプルペアの損失関数の混合を最適化し、これらのペアから構築された仮想トレーニングデータに基づいてモデルをトレーニングする。
学習可能な損失混合では、混合データに条件付けすることにより、損失関数を非線形混合関数を用いて混合し、ニューラルパラメータ化により自動的に学習する。
VCTKベンチマーク実験の結果,学習可能な損失混合は3.26 PESQを達成し,最先端よりも優れていた。
関連論文リスト
- TiMix: Text-aware Image Mixing for Effective Vision-Language
Pre-training [42.142924806184425]
クロスモーダルなコントラスト学習のための混合データサンプルは、暗黙的にコントラスト損失のレギュレータとして機能する。
TiMixは、既存のメソッドに対してベンチマークした場合、トレーニングデータの量が減り、トレーニング時間が短縮された場合でも、ダウンストリームタスクで同等のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-12-14T12:02:24Z) - The Benefits of Mixup for Feature Learning [117.93273337740442]
最初に、機能やラベルに異なる線形パラメータを使用するMixupは、標準Mixupと同様のパフォーマンスが得られることを示す。
我々は、特徴雑音データモデルを検討し、Mixupトレーニングが共通の特徴と組み合わせることで、稀な特徴を効果的に学習できることを示します。
対照的に、標準的なトレーニングは共通の特徴しか学べないが、まれな特徴を学べないため、パフォーマンスが悪くなる。
論文 参考訳(メタデータ) (2023-03-15T08:11:47Z) - Over-training with Mixup May Hurt Generalization [32.64382185990981]
今回,Mixupトレーニングの既往の現象を報告する。
多くの標準データセットにおいて、Mixupトレーニングモデルの性能は、多くのエポックのトレーニング後に低下し始めます。
理論的には、Mixupトレーニングは、不要なデータ依存ラベルノイズを合成データに導入する可能性がある。
論文 参考訳(メタデータ) (2023-03-02T18:37:34Z) - Harnessing Hard Mixed Samples with Decoupled Regularizer [69.98746081734441]
Mixupは、決定境界を混合データで滑らかにすることで、ニューラルネットワークの一般化を改善する効率的なデータ拡張アプローチである。
本稿では,非結合型正規化器(Decoupled Mixup, DM)を用いた効率的な混合目標関数を提案する。
DMは、ミキシングの本来の滑らかさを損なうことなく、硬質混合試料を適応的に利用して識別特性をマイニングすることができる。
論文 参考訳(メタデータ) (2022-03-21T07:12:18Z) - Contrastive-mixup learning for improved speaker verification [17.93491404662201]
本稿では,話者検証のためのミックスアップによるプロトタイプ損失の新しい定式化を提案する。
Mixupは、ランダムなデータポイントとラベルペアの重み付けを組み合わせた、シンプルだが効率的なデータ拡張技術である。
論文 参考訳(メタデータ) (2022-02-22T05:09:22Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - SMILE: Self-Distilled MIxup for Efficient Transfer LEarning [42.59451803498095]
本研究では, SMILE-Self-Distilled Mixup for EffIcient Transfer LEarningを提案する。
混合画像を入力として、SMILEはCNN特徴抽出器の出力を正規化し、入力の混合特徴ベクトルから学習する。
トリプルレギュラライザーは、特徴空間とラベル空間の両方で混合効果のバランスをとりながら、前訓練タスクのサンプル間の線形性をバインドします。
論文 参考訳(メタデータ) (2021-03-25T16:02:21Z) - Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks [75.69896269357005]
Mixupは、入力例と対応するラベルを線形に補間する最新のデータ拡張技術である。
本稿では,自然言語処理タスクにmixupを適用する方法について検討する。
我々は、様々なNLPタスクに対して、mixup-transformerと呼ばれる、トランスフォーマーベースの事前学習アーキテクチャにmixupを組み込んだ。
論文 参考訳(メタデータ) (2020-10-05T23:37:30Z) - Step-Ahead Error Feedback for Distributed Training with Compressed
Gradient [99.42912552638168]
集中型分散トレーニングにおける局所的エラーフィードバックによって,新たな"段階的ミスマッチ"問題が発生することを示す。
本稿では, 厳密な理論的解析を施した2つの新しい手法, 1) 一歩前進, 2) 誤差平均化を提案する。
論文 参考訳(メタデータ) (2020-08-13T11:21:07Z) - Deep F-measure Maximization for End-to-End Speech Understanding [52.36496114728355]
本稿では,F測度に対する微分可能な近似法を提案し,標準バックプロパゲーションを用いてネットワークをトレーニングする。
我々は、アダルト、コミュニティ、犯罪の2つの標準フェアネスデータセットの実験を行い、ATISデータセットの音声・インテリジェンス検出と音声・COCOデータセットの音声・イメージ概念分類を行った。
これらの4つのタスクのすべてにおいて、F測定は、クロスエントロピー損失関数で訓練されたモデルと比較して、最大8%の絶対的な絶対的な改善を含む、マイクロF1スコアの改善をもたらす。
論文 参考訳(メタデータ) (2020-08-08T03:02:27Z) - Unsupervised Sound Separation Using Mixture Invariant Training [38.0680944898427]
音声分離における教師あり手法と比較して,MixITは競争性能を向上できることを示す。
特に,残響混合を組み込むことで残響分離性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-06-23T02:22:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。