論文の概要: WhiSQA: Non-Intrusive Speech Quality Prediction Using Whisper Encoder Features
- arxiv url: http://arxiv.org/abs/2508.02210v1
- Date: Mon, 04 Aug 2025 09:01:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.266088
- Title: WhiSQA: Non-Intrusive Speech Quality Prediction Using Whisper Encoder Features
- Title(参考訳): WhiSQA:ウィスパーエンコーダ特徴を用いた非侵入音声品質予測
- Authors: George Close, Kris Hong, Thomas Hain, Stefan Goetze,
- Abstract要約: ASRモデルから抽出した特徴表現に基づいて,新規でロバストなSQ予測器を提案する。
提案手法は,NISQA テストセットの最近の手法よりも,ヒトの MOS 評価との相関性が高い。
- 参考スコア(独自算出の注目度): 17.29709755230273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There has been significant research effort developing neural-network-based predictors of SQ in recent years. While a primary objective has been to develop non-intrusive, i.e.~reference-free, metrics to assess the performance of SE systems, recent work has also investigated the direct inference of neural SQ predictors within the loss function of downstream speech tasks. To aid in the training of SQ predictors, several large datasets of audio with corresponding human labels of quality have been created. Recent work in this area has shown that speech representations derived from large unsupervised or semi-supervised foundational speech models are useful input feature representations for neural SQ prediction. In this work, a novel and robust SQ predictor is proposed based on feature representations extracted from an ASR model, found to be a powerful input feature for the SQ prediction task. The proposed system achieves higher correlation with human MOS ratings than recent approaches on all NISQA test sets and shows significantly better domain adaption compared to the commonly used DNSMOS metric.
- Abstract(参考訳): 近年,SQのニューラルネットワークに基づく予測器の開発が盛んに行われている。
主目的は、SEシステムの性能を評価するための非侵襲的、つまり参照不要なメトリクスを開発することであるが、近年の研究では、下流音声タスクの損失関数におけるニューラルSQ予測器の直接推論についても検討している。
SQ予測器のトレーニングを支援するため、対応する品質のラベルを持つ大規模なオーディオデータセットが複数作成されている。
この領域における最近の研究は、大きな教師なしまたは半教師付き基礎的音声モデルから導かれる音声表現が、ニューラルネットワークによるSQ予測に有用な入力特徴表現であることを示した。
本研究では,ASRモデルから抽出した特徴表現に基づいて,新しい頑健なSQ予測器を提案する。
提案手法は, NISQA テストセットの最近の手法と比較して, 人間の MOS 評価との相関性が高く, 一般的な DNSMOS 測定値と比較すると, ドメイン適応性が著しく向上している。
関連論文リスト
- NEST-RQ: Next Token Prediction for Speech Self-Supervised Pre-Training [17.54331997432642]
ランダム投影量化器(NEST-RQ)を用いた次のトークン予測に基づく事前学習手法を提案する。
NEST-RQでは、左コンテキストのみの因果エンコーダを採用し、トレーニングタスクとして次のトークン予測(NTP)を使用している。
大規模データセットでは、BEST-RQと比較して、提案したNEST-RQは、非ストリーミング自動音声認識(ASR)における同等のパフォーマンスと、ストリーミングASRにおけるより良いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-09-13T09:48:11Z) - Bridging the Gap Between Saliency Prediction and Image Quality Assessment [0.0]
深部神経モデルでは画像品質評価(IQA)が大幅に進歩している
我々はIQAとSaliency Predictionタスクの関係を明らかにする実証的研究を行った。
本稿では,サリエンシ対応圧縮画像の新たなSACIDデータセットを導入し,従来のIQA法とニューラルベースIQA法の大規模比較を行う。
論文 参考訳(メタデータ) (2024-05-08T12:04:43Z) - Non-Intrusive Speech Intelligibility Prediction for Hearing-Impaired
Users using Intermediate ASR Features and Human Memory Models [29.511898279006175]
この研究は、ニューラルネットワーク入力機能としてのWhisper ASRデコーダ層表現と、人間の記憶を模範とした心理的動機付けモデルを組み合わせることで、補聴器使用者の人間の知能評価を予測する。
トレーニングデータに現れない拡張システムやリスナーを含む、確立された侵入型HASPIベースラインシステムに対する実質的な性能改善が、28.7のベースラインと比較して、根平均2乗誤差が25.3である。
論文 参考訳(メタデータ) (2024-01-24T17:31:07Z) - Non Intrusive Intelligibility Predictor for Hearing Impaired Individuals
using Self Supervised Speech Representations [21.237026538221404]
SQ評価の非侵襲的予測手法は、難聴者に対するインテリジェンス予測に拡張される。
自己教師付き表現は,非侵入予測モデルの入力特徴として有用であることがわかった。
論文 参考訳(メタデータ) (2023-07-25T11:42:52Z) - NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level
Quality [123.97136358092585]
我々は、ベンチマークデータセット上で人間レベルの品質を実現するNaturalSpeechと呼ばれるTSシステムを開発した。
具体的には、波形生成のための変分オートエンコーダ(VAE)を利用する。
LJSpeechデータセットを用いた実験により,提案したNaturalSpeechは文レベルでの人間の記録に対して-0.01CMOSを達成した。
論文 参考訳(メタデータ) (2022-05-09T16:57:35Z) - DUAL: Textless Spoken Question Answering with Speech Discrete Unit
Adaptive Learning [66.71308154398176]
SQA (Spken Question Answering) は近年注目され, 目覚ましい進歩を遂げている。
既存のSQA手法は、収集に時間と費用がかかる自動音声認識(ASR)の転写に依存している。
本研究は,未ラベルのデータを事前学習に活用し,SQAダウンストリームタスクによって微調整される離散単位適応学習(DUAL)という,ASR transcript-free SQAフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-09T17:46:22Z) - InQSS: a speech intelligibility assessment model using a multi-task
learning network [21.037410575414995]
本研究では,スペクトルおよび散乱係数を入力特徴として用いた音声インテリジェンス評価モデルであるInQSSを提案する。
得られたモデルは、知性スコアだけでなく、音声の品質スコアも予測できる。
論文 参考訳(メタデータ) (2021-11-04T02:01:27Z) - Task-Specific Normalization for Continual Learning of Blind Image
Quality Models [105.03239956378465]
視覚的画像品質評価(BIQA)のための簡易かつ効果的な連続学習法を提案する。
このアプローチの重要なステップは、トレーニング済みのディープニューラルネットワーク(DNN)のすべての畳み込みフィルタを凍結して、安定性を明示的に保証することです。
我々は、各新しいIQAデータセット(タスク)に予測ヘッドを割り当て、対応する正規化パラメータをロードして品質スコアを生成する。
最終的な品質推定は、軽量な$K$-meansゲーティング機構で、すべての頭からの予測の重み付け総和によって計算される。
論文 参考訳(メタデータ) (2021-07-28T15:21:01Z) - Continual Learning for Blind Image Quality Assessment [80.55119990128419]
ブラインド画像品質評価(BIQA)モデルは、サブポピュレーションシフトに継続的に適応できない。
最近の研究では、利用可能なすべての人間評価のIQAデータセットの組み合わせに関するBIQAメソッドのトレーニングが推奨されている。
モデルがIQAデータセットのストリームから継続的に学習するBIQAの継続的学習を策定する。
論文 参考訳(メタデータ) (2021-02-19T03:07:01Z) - MetaIQA: Deep Meta-learning for No-Reference Image Quality Assessment [73.55944459902041]
本稿では,深層メタラーニングに基づく非参照IQA尺度を提案する。
まず、様々な歪みに対してNR-IQAタスクを収集する。
次にメタラーニングを用いて、多彩な歪みによって共有される事前知識を学習する。
大規模な実験により、提案された計量は最先端の技術を大きなマージンで上回ることを示した。
論文 参考訳(メタデータ) (2020-04-11T23:36:36Z) - Generating diverse and natural text-to-speech samples using a quantized
fine-grained VAE and auto-regressive prosody prior [53.69310441063162]
本稿では,より自然な音響サンプルを生成できる離散潜在空間における逐次前処理を提案する。
本研究では,聴取試験,自動音声認識(ASR)性能の客観的指標,韻律特性の測定によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T12:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。