論文の概要: Metric-oriented Speech Enhancement using Diffusion Probabilistic Model
- arxiv url: http://arxiv.org/abs/2302.11989v1
- Date: Thu, 23 Feb 2023 13:12:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-24 15:17:24.367375
- Title: Metric-oriented Speech Enhancement using Diffusion Probabilistic Model
- Title(参考訳): 拡散確率モデルを用いたメトリック指向音声強調
- Authors: Chen Chen, Yuchen Hu, Weiwei Weng, Eng Siong Chng
- Abstract要約: ディープニューラルネットワークに基づく音声強調技術は、ペアトレーニングデータによって教師されるノイズからクリーンへの変換を学ぶことに焦点を当てている。
タスク固有の評価基準(例えば、PSSQ)は、通常微分不可能であり、トレーニング基準で直接構築することはできない。
本稿では,その逆プロセスにメトリック指向のトレーニング戦略を統合する,距離指向音声強調手法を提案する。
- 参考スコア(独自算出の注目度): 23.84172431047342
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural network based speech enhancement technique focuses on learning a
noisy-to-clean transformation supervised by paired training data. However, the
task-specific evaluation metric (e.g., PESQ) is usually non-differentiable and
can not be directly constructed in the training criteria. This mismatch between
the training objective and evaluation metric likely results in sub-optimal
performance. To alleviate it, we propose a metric-oriented speech enhancement
method (MOSE), which leverages the recent advances in the diffusion
probabilistic model and integrates a metric-oriented training strategy into its
reverse process. Specifically, we design an actor-critic based framework that
considers the evaluation metric as a posterior reward, thus guiding the reverse
process to the metric-increasing direction. The experimental results
demonstrate that MOSE obviously benefits from metric-oriented training and
surpasses the generative baselines in terms of all evaluation metrics.
- Abstract(参考訳): ディープニューラルネットワークに基づく音声強調技術は、ペアトレーニングデータによって監視されるノイズからクリーンへの変換の学習に焦点を当てている。
しかしながら、タスク固有の評価基準(例えば、PSSQ)は通常微分不可能であり、トレーニング基準で直接構築することはできない。
このトレーニング目標と評価基準のミスマッチは、おそらく準最適性能をもたらす。
そこで本研究では,拡散確率モデルにおける最近の進歩を活かし,その逆プロセスにメトリック指向学習戦略を統合する,mose(metric-oriented speech enhancement method)を提案する。
具体的には,評価基準を後方報酬として考慮し,その逆過程をメートル法化方向に導く,アクタ批判に基づくフレームワークを設計する。
実験結果から,MOSEは明らかにメトリック指向トレーニングの恩恵を受けており,すべての評価指標において生成基準を超越していることが示された。
関連論文リスト
- What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate [118.37653302885607]
本稿では,LVLM(Large Vision Language Models)のマルチモーダル事前学習品質を示すために,MIR(Modality Integration Rate)を提案する。
MIRは、トレーニングデータ選択、トレーニング戦略スケジュール、モデルアーキテクチャ設計に重点を置いて、トレーニング前の結果を改善する。
論文 参考訳(メタデータ) (2024-10-09T17:59:04Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Exploring validation metrics for offline model-based optimisation with
diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。
モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。
本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文 参考訳(メタデータ) (2022-11-19T16:57:37Z) - Data Augmentation through Expert-guided Symmetry Detection to Improve
Performance in Offline Reinforcement Learning [0.0]
マルコフ決定過程(MDP)の動的モデルのオフライン推定は非自明な作業である。
近年の研究では、密度推定法に依存する専門家誘導パイプラインが、決定論的環境において、この構造を効果的に検出できることが示されている。
学習したMDPを解き、実際の環境に最適化されたポリシーを適用すると、前者の結果が性能改善につながることを示す。
論文 参考訳(メタデータ) (2021-12-18T14:32:32Z) - MetricOpt: Learning to Optimize Black-Box Evaluation Metrics [21.608384691401238]
誤分類率やリコールなどのタスク評価指標を任意に最適化する問題について検討する。
MetricOptと呼ばれる私たちの方法は、ターゲットメトリックの計算詳細が不明なブラックボックス設定で動作します。
我々は、コンパクトなタスク固有のモデルパラメータを計量観測にマップする微分可能値関数を学習することでこれを達成する。
論文 参考訳(メタデータ) (2021-04-21T16:50:01Z) - MetricGAN+: An Improved Version of MetricGAN for Speech Enhancement [37.3251779254894]
音声処理の領域知識を応用した3つのトレーニング手法を提案するMetricGAN+を提案する。
これらの手法により、VoiceBank-DEMANDデータセットの実験結果から、MetricGAN+は以前のMetricGANと比較してPSSQスコアを0.3増加させることができる。
論文 参考訳(メタデータ) (2021-04-08T06:46:35Z) - ReMP: Rectified Metric Propagation for Few-Shot Learning [67.96021109377809]
修正されたメートル法空間は、トレーニングからテストまでのメートル法一貫性を維持するために学習される。
多くの分析結果から、目的の単純な修正がかなりの性能向上をもたらすことが示唆された。
提案したReMPは効率的で効率的であり、様々な標準的な数発の学習データセットで芸術の状態を上回ります。
論文 参考訳(メタデータ) (2020-12-02T00:07:53Z) - On Learning Text Style Transfer with Direct Rewards [101.97136885111037]
平行コーパスの欠如により、テキストスタイルの転送タスクの教師付きモデルを直接訓練することは不可能である。
我々は、当初、微調整されたニューラルマシン翻訳モデルに使用されていた意味的類似度指標を活用している。
我々のモデルは、強いベースラインに対する自動評価と人的評価の両方において大きな利益をもたらす。
論文 参考訳(メタデータ) (2020-10-24T04:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。