論文の概要: Perceptual Contrast Stretching on Target Feature for Speech Enhancement
- arxiv url: http://arxiv.org/abs/2203.17152v1
- Date: Thu, 31 Mar 2022 16:24:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 16:15:16.906349
- Title: Perceptual Contrast Stretching on Target Feature for Speech Enhancement
- Title(参考訳): 音声強調のためのターゲット特徴の知覚的コントラストストストレッチ
- Authors: Rong Chao, Cheng Yu, Szu-Wei Fu, Xugang Lu, Yu Tsao
- Abstract要約: 知覚コントラストストストレッチ(PCS)アプローチによるSE性能の向上。
PCSは、クリティカルバンド重要度関数に基づいて導出され、SEモデルのターゲットを変更するために適用される。
- 参考スコア(独自算出の注目度): 25.047449640433967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech enhancement (SE) performance has improved considerably since the use
of deep learning (DL) models as a base function. In this study, we propose a
perceptual contrast stretching (PCS) approach to further improve SE
performance. PCS is derived based on the critical band importance function and
applied to modify the targets of the SE model. Specifically, PCS stretches the
contract of target features according to perceptual importance, thereby
improving the overall SE performance. Compared to post-processing based
implementations, incorporating PCS into the training phase preserves
performance and reduces online computation. It is also worth noting that PCS
can be suitably combined with different SE model architectures and training
criteria. Meanwhile, PCS does not affect the causality or convergence of the SE
model training. Experimental results on the VoiceBank-DEMAND dataset showed
that the proposed method can achieve state-of-the-art performance on both
causal (PESQ=3.07) and non-causal (PESQ=3.35) SE tasks.
- Abstract(参考訳): ベース関数として深層学習(DL)モデルを用いることにより,音声強調(SE)性能は大幅に向上した。
本研究では,知覚コントラストストストストレッチ(PCS)によるSE性能向上手法を提案する。
PCSはクリティカルバンド重要度関数に基づいて導出され、SEモデルのターゲットを変更する。
具体的には、PCSは知覚的重要度に応じてターゲット特徴の契約を延長し、SE性能を向上する。
後処理ベースの実装と比較して、PCSをトレーニングフェーズに組み込むことは、パフォーマンスを保ち、オンライン計算を減らす。
また、PCSと異なるSEモデルアーキテクチャとトレーニング基準を適切に組み合わせることができる点にも注意が必要だ。
一方、PCSはSEモデルのトレーニングの因果関係や収束に影響を与えない。
VoiceBank-DEMANDデータセットによる実験結果から,提案手法は因果(PESQ=3.07)と非因果(PESQ=3.35)のSEタスクにおいて,最先端の性能を実現することができることがわかった。
関連論文リスト
- DiSK: Differentially Private Optimizer with Simplified Kalman Filter for Noise Reduction [57.83978915843095]
本稿では,微分プライベート勾配の性能を著しく向上する新しいフレームワークであるDiSKを紹介する。
大規模トレーニングの実用性を確保するため,Kalmanフィルタプロセスを簡素化し,メモリと計算要求を最小化する。
論文 参考訳(メタデータ) (2024-10-04T19:30:39Z) - Symmetric Reinforcement Learning Loss for Robust Learning on Diverse Tasks and Model Scales [13.818149654692863]
強化学習(RL)トレーニングは、移動目標や高勾配分散などの要因により本質的に不安定である。
本研究では,雑音データに対する教師付き学習から逆クロスエントロピー(RCE)を適用し,対称的なRL損失を定義することにより,RLトレーニングの安定性を向上させる。
論文 参考訳(メタデータ) (2024-05-27T19:28:33Z) - Prior Constraints-based Reward Model Training for Aligning Large Language Models [58.33118716810208]
本稿では,この問題を解決するために,事前制約に基づくリワードモデル(PCRM)のトレーニング手法を提案する。
PCRMは、前回の制約、特に各比較ペアの出力間の長さ比とコサイン類似性を、最適化の規模を調節しスコアマージンを制御するための報酬モデルトレーニングに組み入れている。
実験結果から,PCRMは報酬スコアのスケーリングを効果的に抑制することによりアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-01T07:49:11Z) - Data Augmentation for Traffic Classification [54.92823760790628]
Data Augmentation (DA) はコンピュータビジョン(CV)と自然言語処理(NLP)に広く採用されている技術である。
DAはネットワークのコンテキスト、特にトラフィック分類(TC)タスクにおいて、牽引力を得るのに苦労しています。
論文 参考訳(メタデータ) (2024-01-19T15:25:09Z) - Unveiling Backbone Effects in CLIP: Exploring Representational Synergies
and Variances [49.631908848868505]
コントラスト言語-画像事前学習(CLIP)は画像表現学習において顕著な手法である。
各種ニューラルアーキテクチャにおけるCLIP性能の違いについて検討する。
我々は、複数のバックボーンからの予測を組み合わせるためのシンプルで効果的なアプローチを提案し、最大6.34%のパフォーマンス向上につながった。
論文 参考訳(メタデータ) (2023-12-22T03:01:41Z) - SCP-GAN: Self-Correcting Discriminator Optimization for Training
Consistency Preserving Metric GAN on Speech Enhancement Tasks [28.261911789087463]
本稿では,多くのGANベースSEモデルに適用可能なGANトレーニングスキームの改良について紹介する。
本稿では,SEタスク上でGAN識別器を訓練するための自己補正最適化を提案する。
提案手法をいくつかの最先端のGANベースSEモデルで検証し、一貫した改善を得た。
論文 参考訳(メタデータ) (2022-10-26T04:48:40Z) - Exploring Example Influence in Continual Learning [26.85320841575249]
連続学習(CL)は、より良い安定性(S)と塑性(P)を達成することを目的として、人間のような新しいタスクを順次学習する
S と P の影響をトレーニング例で調べるには,SP の改善に向けた学習パターンの改善が期待できる。
本稿では、IFの摂動における2つの重要なステップをシミュレートし、S-およびP-認識の例の影響を得るための、シンプルで効果的なMetaSPアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-25T15:17:37Z) - Improving GANs with A Dynamic Discriminator [106.54552336711997]
我々は、オンザフライで調整可能な判別器は、そのような時間変化に適応できると論じる。
総合的な実証研究により、提案したトレーニング戦略がDynamicDと呼ばれ、追加のコストやトレーニング目標を発生させることなく、合成性能を向上させることが確認された。
論文 参考訳(メタデータ) (2022-09-20T17:57:33Z) - Improving Music Performance Assessment with Contrastive Learning [78.8942067357231]
本研究では,既存のMPAシステムを改善するための潜在的手法として,コントラスト学習について検討する。
畳み込みニューラルネットワークに適用された回帰タスクに適した重み付きコントラスト損失を導入する。
この結果から,MPA回帰タスクにおいて,コントラッシブ・ベースの手法がSoTA性能に適合し,超越できることが示唆された。
論文 参考訳(メタデータ) (2021-08-03T19:24:25Z) - Improving Speech Enhancement Performance by Leveraging Contextual Broad
Phonetic Class Information [33.79855927394387]
音声強調のための追加情報として,音節属性の文脈情報について検討する。
本稿では,エンド・ツー・エンドの自動音声認識モデルによる損失を利用してSE性能を向上させることを提案する。
その結果,文脈的BPC情報によりSE性能が向上することが確認された。
論文 参考訳(メタデータ) (2020-11-15T03:56:37Z) - Data Efficient Training for Reinforcement Learning with Adaptive
Behavior Policy Sharing [29.283554268767805]
大規模医療やレコメンデーションシステムといった実世界の応用において、深層RLモデルのトレーニングは困難である。
本稿では、行動ポリシーによって収集された経験の共有を可能にするデータ効率のトレーニングアルゴリズムである適応行動ポリシー共有(ABPS)を提案する。
論文 参考訳(メタデータ) (2020-02-12T20:35:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。