論文の概要: Stable Training of DNN for Speech Enhancement based on
Perceptually-Motivated Black-Box Cost Function
- arxiv url: http://arxiv.org/abs/2002.05879v1
- Date: Fri, 14 Feb 2020 05:44:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 04:33:30.518207
- Title: Stable Training of DNN for Speech Enhancement based on
Perceptually-Motivated Black-Box Cost Function
- Title(参考訳): 知覚運動型ブラックボックスコスト関数に基づく音声強調のためのDNNの安定トレーニング
- Authors: Masaki Kawanaka, Yuma Koizumi, Ryoichi Miyazaki and Kohei Yatabe
- Abstract要約: PESQ (perceptual evaluation of speech quality) などの主観的音質評価(OSQA)に関連する手法が提案されている。
ディープニューラルネットワーク(DNN)のトレーニングには,一般的なOSQAがDNNパラメータに対して差別化できないため,このような手段を直接使用することはできない。
PESQのスコアを上げるために,強化学習から借用した安定化手法を提案する。
- 参考スコア(独自算出の注目度): 39.66350526759246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Improving subjective sound quality of enhanced signals is one of the most
important missions in speech enhancement. For evaluating the subjective
quality, several methods related to perceptually-motivated objective sound
quality assessment (OSQA) have been proposed such as PESQ (perceptual
evaluation of speech quality). However, direct use of such measures for
training deep neural network (DNN) is not allowed in most cases because popular
OSQAs are non-differentiable with respect to DNN parameters. Therefore, the
previous study has proposed to approximate the score of OSQAs by an auxiliary
DNN so that its gradient can be used for training the primary DNN. One problem
with this approach is instability of the training caused by the approximation
error of the score. To overcome this problem, we propose to use stabilization
techniques borrowed from reinforcement learning. The experiments, aimed to
increase the score of PESQ as an example, show that the proposed method (i) can
stably train a DNN to increase PESQ, (ii) achieved the state-of-the-art PESQ
score on a public dataset, and (iii) resulted in better sound quality than
conventional methods based on subjective evaluation.
- Abstract(参考訳): 強調信号の主観的音質の向上は、音声強調における最も重要なミッションの1つである。
主観的品質を評価するために, PESQ (perceptual evaluation of speech quality) など, 知覚的動機付け型主観的音質評価(OSQA)に関するいくつかの手法が提案されている。
しかし、DNNパラメータに関して人気のあるOSQAが微分不可能であるため、ディープニューラルネットワーク(DNN)のトレーニングにこのような手段を直接使用することはできない。
そこで本研究では,OSQAのスコアを補助的DNNで近似し,その勾配を一次DNNのトレーニングに用いることを提案する。
このアプローチの1つの問題は、スコアの近似誤差によるトレーニングの不安定性である。
この問題を解決するために,強化学習から借用した安定化手法を提案する。
PESQのスコア向上を目的とした実験では,提案手法が提案されている。
i) DNN を安定してトレーニングして PESQ を増加させることができる。
(ii)公開データセットにおける最先端PSSQスコアを達成し、
(iii)主観評価に基づく従来の方法よりも音質が良好であった。
関連論文リスト
- HASA-net: A non-intrusive hearing-aid speech assessment network [52.83357278948373]
本稿では,DNNに基づく聴覚支援音声評価ネットワーク(HASA-Net)を提案する。
我々の知る限り、HASA-Netは、DNNに基づく統合型非侵襲的補聴器モデルを用いて、品質とインテリジェンスの評価を取り入れた最初の研究である。
実験結果から,HASA-Netの予測音声品質と難聴度スコアは,2つのよく知られた難聴度評価指標と高い相関を示した。
論文 参考訳(メタデータ) (2021-11-10T14:10:13Z) - InQSS: a speech intelligibility assessment model using a multi-task
learning network [21.037410575414995]
本研究では,スペクトルおよび散乱係数を入力特徴として用いた音声インテリジェンス評価モデルであるInQSSを提案する。
得られたモデルは、知性スコアだけでなく、音声の品質スコアも予測できる。
論文 参考訳(メタデータ) (2021-11-04T02:01:27Z) - Deep Learning-based Non-Intrusive Multi-Objective Speech Assessment
Model with Cross-Domain Features [30.57631206882462]
MOSA-Netは、テスト音声信号を入力として、音声品質、知性、歪み評価スコアを推定するように設計されている。
音声品質(PESQ)、短時間客観性(STOI)、音声歪み指数(BLS)のスコアを、雑音および拡張音声発話の両方で正確に予測できることを,MOSA-Netが示す。
論文 参考訳(メタデータ) (2021-11-03T17:30:43Z) - Improving Character Error Rate Is Not Equal to Having Clean Speech:
Speech Enhancement for ASR Systems with Black-box Acoustic Models [1.6328866317851185]
本稿では,ディープニューラルネットワーク(DNN)に基づく音声強調(SE)を提案する。
提案手法は2つのDNNを用いており、1つは音声処理用、もう1つは音響モデル(AM)による出力CERを模倣する。
実験の結果,一定の雑音レベルを維持しながら,ブラックボックスAMによるCERの相対値が7.3%向上したことがわかった。
論文 参考訳(メタデータ) (2021-10-12T12:51:53Z) - Task-Specific Normalization for Continual Learning of Blind Image
Quality Models [105.03239956378465]
視覚的画像品質評価(BIQA)のための簡易かつ効果的な連続学習法を提案する。
このアプローチの重要なステップは、トレーニング済みのディープニューラルネットワーク(DNN)のすべての畳み込みフィルタを凍結して、安定性を明示的に保証することです。
我々は、各新しいIQAデータセット(タスク)に予測ヘッドを割り当て、対応する正規化パラメータをロードして品質スコアを生成する。
最終的な品質推定は、軽量な$K$-meansゲーティング機構で、すべての頭からの予測の重み付け総和によって計算される。
論文 参考訳(メタデータ) (2021-07-28T15:21:01Z) - Being a Bit Frequentist Improves Bayesian Neural Networks [76.73339435080446]
OODを訓練したBNNは、近年の頻繁なベースラインに劣らず、競争力があることを示す。
この研究はベイジアンおよび頻繁なUQにおける将来の研究の強力なベースラインを提供する。
論文 参考訳(メタデータ) (2021-06-18T11:22:42Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - MetaIQA: Deep Meta-learning for No-Reference Image Quality Assessment [73.55944459902041]
本稿では,深層メタラーニングに基づく非参照IQA尺度を提案する。
まず、様々な歪みに対してNR-IQAタスクを収集する。
次にメタラーニングを用いて、多彩な歪みによって共有される事前知識を学習する。
大規模な実験により、提案された計量は最先端の技術を大きなマージンで上回ることを示した。
論文 参考訳(メタデータ) (2020-04-11T23:36:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。