Fugu-MT 論文翻訳(概要): Metric-oriented Speech Enhancement using Diffusion Probabilistic Model

論文の概要: Metric-oriented Speech Enhancement using Diffusion Probabilistic Model

arxiv url: http://arxiv.org/abs/2302.11989v1
Date: Thu, 23 Feb 2023 13:12:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-24 15:17:24.367375
Title: Metric-oriented Speech Enhancement using Diffusion Probabilistic Model
Title（参考訳）: 拡散確率モデルを用いたメトリック指向音声強調
Authors: Chen Chen, Yuchen Hu, Weiwei Weng, Eng Siong Chng
Abstract要約: ディープニューラルネットワークに基づく音声強調技術は、ペアトレーニングデータによって教師されるノイズからクリーンへの変換を学ぶことに焦点を当てている。タスク固有の評価基準(例えば、PSSQ)は、通常微分不可能であり、トレーニング基準で直接構築することはできない。本稿では,その逆プロセスにメトリック指向のトレーニング戦略を統合する,距離指向音声強調手法を提案する。
参考スコア（独自算出の注目度）: 23.84172431047342
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep neural network based speech enhancement technique focuses on learning a noisy-to-clean transformation supervised by paired training data. However, the task-specific evaluation metric (e.g., PESQ) is usually non-differentiable and can not be directly constructed in the training criteria. This mismatch between the training objective and evaluation metric likely results in sub-optimal performance. To alleviate it, we propose a metric-oriented speech enhancement method (MOSE), which leverages the recent advances in the diffusion probabilistic model and integrates a metric-oriented training strategy into its reverse process. Specifically, we design an actor-critic based framework that considers the evaluation metric as a posterior reward, thus guiding the reverse process to the metric-increasing direction. The experimental results demonstrate that MOSE obviously benefits from metric-oriented training and surpasses the generative baselines in terms of all evaluation metrics.
Abstract（参考訳）: ディープニューラルネットワークに基づく音声強調技術は、ペアトレーニングデータによって監視されるノイズからクリーンへの変換の学習に焦点を当てている。しかしながら、タスク固有の評価基準(例えば、PSSQ)は通常微分不可能であり、トレーニング基準で直接構築することはできない。このトレーニング目標と評価基準のミスマッチは、おそらく準最適性能をもたらす。そこで本研究では,拡散確率モデルにおける最近の進歩を活かし,その逆プロセスにメトリック指向学習戦略を統合する,mose(metric-oriented speech enhancement method)を提案する。具体的には,評価基準を後方報酬として考慮し,その逆過程をメートル法化方向に導く,アクタ批判に基づくフレームワークを設計する。実験結果から,MOSEは明らかにメトリック指向トレーニングの恩恵を受けており,すべての評価指標において生成基準を超越していることが示された。

関連論文リスト

Understanding Behavioral Metric Learning: A Large-Scale Study on Distracting Reinforcement Learning Environments [45.49492366356368]
状態抽象化の鍵となるアプローチは、観察空間における行動メトリクスを近似し、これらの学習を表現空間に埋め込むことである。設計選択の異なる等尺的埋め込みとして概念的に統一された最近の5つのアプローチを評価する。 20のステートベースタスクと14のピクセルベースのタスクにまたがってベースラインでベンチマークを行い、370のタスク設定と多様なノイズ設定にまたがる。
論文参考訳（メタデータ） (2025-05-31T13:43:41Z)
What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文参考訳（メタデータ） (2024-11-12T09:52:40Z)
Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate [118.37653302885607]
本稿では,LVLM(Large Vision Language Models)のマルチモーダル事前学習品質を示すために,MIR(Modality Integration Rate)を提案する。 MIRは、トレーニングデータ選択、トレーニング戦略スケジュール、モデルアーキテクチャ設計に重点を置いて、トレーニング前の結果を改善する。
論文参考訳（メタデータ） (2024-10-09T17:59:04Z)
Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文参考訳（メタデータ） (2024-03-01T03:27:08Z)
Learning Evaluation Models from Large Language Models for Sequence Generation [61.8421748792555]
本稿では,大規模言語モデルを用いた3段階評価モデルトレーニング手法を提案する。 SummEval ベンチマークによる実験結果から,CSEM は人間ラベルデータなしで評価モデルを効果的に訓練できることが示された。
論文参考訳（メタデータ） (2023-08-08T16:41:16Z)
Exploring validation metrics for offline model-based optimisation with diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文参考訳（メタデータ） (2022-11-19T16:57:37Z)
Data Augmentation through Expert-guided Symmetry Detection to Improve Performance in Offline Reinforcement Learning [0.0]
マルコフ決定過程(MDP)の動的モデルのオフライン推定は非自明な作業である。近年の研究では、密度推定法に依存する専門家誘導パイプラインが、決定論的環境において、この構造を効果的に検出できることが示されている。学習したMDPを解き、実際の環境に最適化されたポリシーを適用すると、前者の結果が性能改善につながることを示す。
論文参考訳（メタデータ） (2021-12-18T14:32:32Z)
MetricOpt: Learning to Optimize Black-Box Evaluation Metrics [21.608384691401238]
誤分類率やリコールなどのタスク評価指標を任意に最適化する問題について検討する。 MetricOptと呼ばれる私たちの方法は、ターゲットメトリックの計算詳細が不明なブラックボックス設定で動作します。我々は、コンパクトなタスク固有のモデルパラメータを計量観測にマップする微分可能値関数を学習することでこれを達成する。
論文参考訳（メタデータ） (2021-04-21T16:50:01Z)
MetricGAN+: An Improved Version of MetricGAN for Speech Enhancement [37.3251779254894]
音声処理の領域知識を応用した3つのトレーニング手法を提案するMetricGAN+を提案する。これらの手法により、VoiceBank-DEMANDデータセットの実験結果から、MetricGAN+は以前のMetricGANと比較してPSSQスコアを0.3増加させることができる。
論文参考訳（メタデータ） (2021-04-08T06:46:35Z)
ReMP: Rectified Metric Propagation for Few-Shot Learning [67.96021109377809]
修正されたメートル法空間は、トレーニングからテストまでのメートル法一貫性を維持するために学習される。多くの分析結果から、目的の単純な修正がかなりの性能向上をもたらすことが示唆された。提案したReMPは効率的で効率的であり、様々な標準的な数発の学習データセットで芸術の状態を上回ります。
論文参考訳（メタデータ） (2020-12-02T00:07:53Z)
On Learning Text Style Transfer with Direct Rewards [101.97136885111037]
平行コーパスの欠如により、テキストスタイルの転送タスクの教師付きモデルを直接訓練することは不可能である。我々は、当初、微調整されたニューラルマシン翻訳モデルに使用されていた意味的類似度指標を活用している。我々のモデルは、強いベースラインに対する自動評価と人的評価の両方において大きな利益をもたらす。
論文参考訳（メタデータ） (2020-10-24T04:30:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。