論文の概要: Residual-Guided Non-Intrusive Speech Quality Assessment
- arxiv url: http://arxiv.org/abs/2203.11499v1
- Date: Tue, 22 Mar 2022 07:19:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-23 15:39:18.300527
- Title: Residual-Guided Non-Intrusive Speech Quality Assessment
- Title(参考訳): 残差誘導非侵入音声品質評価
- Authors: Zhe Ye, Jiahao Chen, Diqun Yan
- Abstract要約: 本稿では、障害音声と強化音声の残差に基づいて、非侵入音声品質の評価を改善する手法を提案する。
我々は、障害音声に対する強調音声を生成し、基準音声の欠如を補う。
- 参考スコア(独自算出の注目度): 4.7590051176368915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes an approach to improve Non-Intrusive speech quality
assessment(NI-SQA) based on the residuals between impaired speech and enhanced
speech. The difficulty in our task is particularly lack of information, for
which the corresponding reference speech is absent. We generate an enhanced
speech on the impaired speech to compensate for the absence of the reference
audio, then pair the information of residuals with the impaired speech.
Compared to feeding the impaired speech directly into the model, residuals
could bring some extra helpful information from the contrast in enhancement.
The human ear is sensitive to certain noises but different to deep learning
model. Causing the Mean Opinion Score(MOS) the model predicted is not enough to
fit our subjective sensitive well and causes deviation. These residuals have a
close relationship to reference speech and then improve the ability of the deep
learning models to predict MOS. During the training phase, experimental results
demonstrate that paired with residuals can quickly obtain better evaluation
indicators under the same conditions. Furthermore, our final results improved
31.3 percent and 14.1 percent, respectively, in PLCC and RMSE.
- Abstract(参考訳): 本稿では,音声障害と強調音声の残差に着目し,非インタラクティブ音声品質評価(ni-sqa)の改善手法を提案する。
我々の課題の難しさは、特に情報不足であり、対応する参照音声が欠落している。
音声の欠落を補うために,障害音声の強調音声を生成し,残差情報と障害音声とをペアリングする。
モデルに障害のある音声を直接供給するのに比べ、残差は強調のコントラストからさらに有用な情報をもたらす可能性がある。
人間の耳は特定のノイズに敏感だが、深層学習モデルとは異なる。
平均オピニオンスコア(MOS)を用いて予測したモデルでは、主観的感度がよく適合し、偏差を引き起こすには不十分である。
これらの残差は参照音声と密接な関係を持ち、MOSを予測する深層学習モデルの能力を向上させる。
トレーニング段階で実験の結果, 残留物とのペアが同一条件下で評価指標を迅速に得ることが示された。
さらに, PLCCおよびRMSEでは, 最終結果はそれぞれ31.3%, 14.1%改善した。
関連論文リスト
- Audio Large Language Models Can Be Descriptive Speech Quality Evaluators [46.765203628127345]
本稿では,人間格付けから生成した最初の自然言語に基づく音声評価コーパスについて紹介する。
このコーパスは、複数の次元にわたる詳細な分析を提供し、品質劣化の原因を特定する。
生音声から関連情報を抽出するために,LLM蒸留(ALLD)を用いたアライメント手法を提案する。
論文 参考訳(メタデータ) (2025-01-27T22:47:51Z) - Ontology-aware Learning and Evaluation for Audio Tagging [56.59107110017436]
平均平均精度(mAP)は、異なる種類の音をそれらの関係を考慮せずに独立したクラスとして扱う。
オントロジー認識平均平均精度(OmAP)は、評価中にAudioSetオントロジー情報を利用することで、mAPの弱点に対処する。
我々は人間の評価を行い、OmAPはmAPよりも人間の知覚と一致していることを示した。
論文 参考訳(メタデータ) (2022-11-22T11:35:14Z) - Speech Emotion: Investigating Model Representations, Multi-Task Learning
and Knowledge Distillation [6.382013662443799]
音声信号から次元感情を推定することは困難である。
事前学習した音響モデルにより、音声の価値推定を改善することができることを示す。
我々は,現在最先端の「テキストフリー」音響のみの次元感情推定について報告する。
論文 参考訳(メタデータ) (2022-07-02T17:34:44Z) - MOSRA: Joint Mean Opinion Score and Room Acoustics Speech Quality
Assessment [12.144133923535714]
本稿では,非侵入的多次元音声品質指標であるMOSRAについて述べる。
室内音響パラメータと音声品質の総合平均評価スコア(MOS)を同時に予測することができる。
また,この共同学習手法により,室内音響のブラインド推定が向上することを示す。
論文 参考訳(メタデータ) (2022-04-04T09:38:15Z) - Speaker Identity Preservation in Dysarthric Speech Reconstruction by
Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。
話者識別に最適化された話者エンコーダ (SE) について検討した。
我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文 参考訳(メタデータ) (2022-02-18T08:59:36Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - Avoiding Inference Heuristics in Few-shot Prompt-based Finetuning [57.4036085386653]
文ペア分類タスクのプロンプトベースモデルでは,語彙重なりに基づく推論の一般的な落とし穴が依然として残っていることを示す。
そこで,プレトレーニングウェイトを保存する正規化を加えることは,この破壊的な微調整の傾向を緩和するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-09-09T10:10:29Z) - Improved Robustness to Disfluencies in RNN-Transducer Based Speech
Recognition [1.8702587873591643]
RNN-T ASRの発話障害に対する堅牢性向上を目的としたデータ選択と準備選択を検討する。
学習に不均一性のある少量のデータを含むと、不均一性や混乱を伴うテストの認識精度が向上することを示す。
論文 参考訳(メタデータ) (2020-12-11T11:47:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。