論文の概要: Metric-oriented Speech Enhancement using Diffusion Probabilistic Model
- arxiv url: http://arxiv.org/abs/2302.11989v1
- Date: Thu, 23 Feb 2023 13:12:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-24 15:17:24.367375
- Title: Metric-oriented Speech Enhancement using Diffusion Probabilistic Model
- Title(参考訳): 拡散確率モデルを用いたメトリック指向音声強調
- Authors: Chen Chen, Yuchen Hu, Weiwei Weng, Eng Siong Chng
- Abstract要約: ディープニューラルネットワークに基づく音声強調技術は、ペアトレーニングデータによって教師されるノイズからクリーンへの変換を学ぶことに焦点を当てている。
タスク固有の評価基準(例えば、PSSQ)は、通常微分不可能であり、トレーニング基準で直接構築することはできない。
本稿では,その逆プロセスにメトリック指向のトレーニング戦略を統合する,距離指向音声強調手法を提案する。
- 参考スコア(独自算出の注目度): 23.84172431047342
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural network based speech enhancement technique focuses on learning a
noisy-to-clean transformation supervised by paired training data. However, the
task-specific evaluation metric (e.g., PESQ) is usually non-differentiable and
can not be directly constructed in the training criteria. This mismatch between
the training objective and evaluation metric likely results in sub-optimal
performance. To alleviate it, we propose a metric-oriented speech enhancement
method (MOSE), which leverages the recent advances in the diffusion
probabilistic model and integrates a metric-oriented training strategy into its
reverse process. Specifically, we design an actor-critic based framework that
considers the evaluation metric as a posterior reward, thus guiding the reverse
process to the metric-increasing direction. The experimental results
demonstrate that MOSE obviously benefits from metric-oriented training and
surpasses the generative baselines in terms of all evaluation metrics.
- Abstract(参考訳): ディープニューラルネットワークに基づく音声強調技術は、ペアトレーニングデータによって監視されるノイズからクリーンへの変換の学習に焦点を当てている。
しかしながら、タスク固有の評価基準(例えば、PSSQ)は通常微分不可能であり、トレーニング基準で直接構築することはできない。
このトレーニング目標と評価基準のミスマッチは、おそらく準最適性能をもたらす。
そこで本研究では,拡散確率モデルにおける最近の進歩を活かし,その逆プロセスにメトリック指向学習戦略を統合する,mose(metric-oriented speech enhancement method)を提案する。
具体的には,評価基準を後方報酬として考慮し,その逆過程をメートル法化方向に導く,アクタ批判に基づくフレームワークを設計する。
実験結果から,MOSEは明らかにメトリック指向トレーニングの恩恵を受けており,すべての評価指標において生成基準を超越していることが示された。
関連論文リスト
- Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Calibration-then-Calculation: A Variance Reduced Metric Framework in
Deep Click-Through Rate Prediction Models [17.816365219484638]
トレーニングプロセスを一度だけ実行し、その結果を以前のベンチマークと比較することが一般的になった。
距離分散は、ディープラーニングパイプラインのトレーニングプロセスに固有のランダム性に由来する。
我々は,この問題に対処する新たなメトリクスフレームワークCalibrated Loss Metricを提案する。
論文 参考訳(メタデータ) (2024-01-30T02:38:23Z) - BLEURT Has Universal Translations: An Analysis of Automatic Metrics by
Minimum Risk Training [64.37683359609308]
本研究では,機械翻訳システムの学習指導の観点から,各種の主流および最先端の自動測定値について分析する。
BLEURT や BARTScore における普遍的逆変換の存在など,ある種の指標は堅牢性欠陥を示す。
詳細な分析では、これらのロバスト性障害の主な原因は、トレーニングデータセットにおける分布バイアスと、メートル法パラダイムの傾向である。
論文 参考訳(メタデータ) (2023-07-06T16:59:30Z) - Exploring validation metrics for offline model-based optimisation with
diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。
モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。
本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文 参考訳(メタデータ) (2022-11-19T16:57:37Z) - Data Augmentation through Expert-guided Symmetry Detection to Improve
Performance in Offline Reinforcement Learning [0.0]
マルコフ決定過程(MDP)の動的モデルのオフライン推定は非自明な作業である。
近年の研究では、密度推定法に依存する専門家誘導パイプラインが、決定論的環境において、この構造を効果的に検出できることが示されている。
学習したMDPを解き、実際の環境に最適化されたポリシーを適用すると、前者の結果が性能改善につながることを示す。
論文 参考訳(メタデータ) (2021-12-18T14:32:32Z) - MetricGAN+: An Improved Version of MetricGAN for Speech Enhancement [37.3251779254894]
音声処理の領域知識を応用した3つのトレーニング手法を提案するMetricGAN+を提案する。
これらの手法により、VoiceBank-DEMANDデータセットの実験結果から、MetricGAN+は以前のMetricGANと比較してPSSQスコアを0.3増加させることができる。
論文 参考訳(メタデータ) (2021-04-08T06:46:35Z) - ReMP: Rectified Metric Propagation for Few-Shot Learning [67.96021109377809]
修正されたメートル法空間は、トレーニングからテストまでのメートル法一貫性を維持するために学習される。
多くの分析結果から、目的の単純な修正がかなりの性能向上をもたらすことが示唆された。
提案したReMPは効率的で効率的であり、様々な標準的な数発の学習データセットで芸術の状態を上回ります。
論文 参考訳(メタデータ) (2020-12-02T00:07:53Z) - On Learning Text Style Transfer with Direct Rewards [101.97136885111037]
平行コーパスの欠如により、テキストスタイルの転送タスクの教師付きモデルを直接訓練することは不可能である。
我々は、当初、微調整されたニューラルマシン翻訳モデルに使用されていた意味的類似度指標を活用している。
我々のモデルは、強いベースラインに対する自動評価と人的評価の両方において大きな利益をもたらす。
論文 参考訳(メタデータ) (2020-10-24T04:30:02Z) - Towards GAN Benchmarks Which Require Generalization [48.075521136623564]
関数を推定するにはモデルからの大きなサンプルが必要であると我々は主張する。
我々は、分布を区別するために訓練されたニューラルネットワークの用語で定義されるニューラルネットワーク分散(NND)に目を向ける。
結果として得られたベンチマークは、トレーニングセットの記憶によって"ウォン"することはできないが、それでも知覚的に相関があり、サンプルからのみ計算可能である。
論文 参考訳(メタデータ) (2020-01-10T20:18:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。