論文の概要: NISQA: A Deep CNN-Self-Attention Model for Multidimensional Speech
Quality Prediction with Crowdsourced Datasets
- arxiv url: http://arxiv.org/abs/2104.09494v1
- Date: Mon, 19 Apr 2021 17:56:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 14:22:01.220603
- Title: NISQA: A Deep CNN-Self-Attention Model for Multidimensional Speech
Quality Prediction with Crowdsourced Datasets
- Title(参考訳): NISQA:クラウドソーシングデータセットを用いた多次元音声品質予測のための深部CNN自己認識モデル
- Authors: Gabriel Mittag, Babak Naderi, Assmaa Chehadi, Sebastian M\"oller
- Abstract要約: 本稿では,nisqa音声品質予測モデルについて述べる。
モデルはエンドツーエンドでトレーニングされ、時間依存モデリングはセルフアテンションメカニズムを通じて達成される。
モデルのトレーニングと検証のために、13,000以上の音声ファイルを持つ新しいデータセットが作成された。
- 参考スコア(独自算出の注目度): 12.900962275802373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present an update to the NISQA speech quality prediction
model that is focused on distortions that occur in communication networks. In
contrast to the previous version, the model is trained end-to-end and the
time-dependency modelling and time-pooling is achieved through a Self-Attention
mechanism. Besides overall speech quality, the model also predicts the four
speech quality dimensions Noisiness, Coloration, Discontinuity, and Loudness,
and in this way gives more insight into the cause of a quality degradation.
Furthermore, new datasets with over 13,000 speech files were created for
training and validation of the model. The model was finally tested on a new,
live-talking test dataset that contains recordings of real telephone calls.
Overall, NISQA was trained and evaluated on 81 datasets from different sources
and showed to provide reliable predictions also for unknown speech samples. The
code, model weights, and datasets are open-sourced.
- Abstract(参考訳): 本稿では,通信ネットワークにおける歪みに着目したNISQA音声品質予測モデルのアップデートを提案する。
以前のバージョンとは対照的に、モデルはエンドツーエンドで訓練され、時間依存モデリングと時間プーリングは自己認識機構によって達成される。
全体的な音声品質に加えて、モデルは、ノイズネス、着色、不連続、ラウドネスの4つの品質次元を予測し、品質劣化の原因についてより深い洞察を与える。
さらに、モデルのトレーニングと検証のために、13,000以上の音声ファイルを持つ新しいデータセットが作成された。
このモデルは、実電話の記録を含む新しいライブトークテストデータセットでようやくテストされた。
全体として、NISQAは異なるソースから81のデータセットをトレーニングし、評価し、未知の音声サンプルに対しても信頼性の高い予測を提供することを示した。
コード、モデルウェイト、データセットはオープンソースである。
関連論文リスト
- Self-Supervised Speech Quality Estimation and Enhancement Using Only
Clean Speech [50.95292368372455]
ベクトル量子化変分オートエンコーダ(VQ-VAE)の量子化誤差に基づく音声評価のための自己教師付きメトリックであるVQScoreを提案する。
VQ-VAEのトレーニングはクリーン音声に依存するため、音声が歪んだときに大きな量子化誤差が期待できる。
また,ベクトル量子化機構は,自己教師付き音声強調(SE)モデルトレーニングにも有効であることがわかった。
論文 参考訳(メタデータ) (2024-02-26T06:01:38Z) - Generative Pre-training for Speech with Flow Matching [81.59952572752248]
我々は,フローマッチングとマスク条件を併用した60k時間の無転写音声に対して,SpeechFlowという生成モデルを事前学習した。
実験結果から,事前学習した生成モデルをタスク固有のデータで微調整し,音声強調,分離,合成に関する既存の専門家モデルに適合または超えることを示す。
論文 参考訳(メタデータ) (2023-10-25T03:40:50Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - Analyzing Robustness of End-to-End Neural Models for Automatic Speech
Recognition [11.489161072526677]
音声認識のための事前学習ニューラルネットワークのロバスト性について検討する。
本研究では,LibriSpeechおよびTIMITデータセット上で,事前学習したニューラルネットワークwav2vec2, HuBERT, DistilHuBERTのロバスト性解析を行う。
論文 参考訳(メタデータ) (2022-08-17T20:00:54Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - Visualising and Explaining Deep Learning Models for Speech Quality
Prediction [0.0]
本稿では,非侵入的音声品質予測モデルであるNISQAについて分析する。
畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)から構成される。
論文 参考訳(メタデータ) (2021-12-12T12:50:03Z) - Federated Natural Language Generation for Personalized Dialogue System [5.649931633964224]
本稿では,分散デバイス上の様々なデータセットからパーソナライズされた表現を学習する,新しいFederated Natural Language Generationフレームワークを提案する。
FedNLGはまず、大きな対話コーパス上で標準的なニューラルネットワークモデルのパラメータを事前トレーニングし、その後、特定のデータセットにモデルパラメータとペルソナの埋め込みを微調整する。
コーネル・ムービー・ダイアログ・コーパス上での事前学習モデルと2つのTVシリーズデータセット上でのモデルの微調整により,本モデルの有効性を実証する。
論文 参考訳(メタデータ) (2021-10-13T00:59:52Z) - Knowledge Distillation for Quality Estimation [79.51452598302934]
QE(Quality Estimation)は、参照翻訳のない機械翻訳の品質を自動的に予測するタスクである。
QEの最近の成功は、非常に大きなモデルが印象的な結果をもたらす多言語事前学習表現の使用に起因している。
提案手法は, データ拡張と組み合わせて, 8倍のパラメータを持つ蒸留前学習表現と競合する軽量QEモデルをもたらすことを示す。
論文 参考訳(メタデータ) (2021-07-01T12:36:21Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Deep Learning Based Assessment of Synthetic Speech Naturalness [14.463987018380468]
合成音声の自然性に対する新たな客観的予測モデルを提案する。
Text-To-SpeechまたはVoice Conversionシステムの評価に使用できる。
論文 参考訳(メタデータ) (2021-04-23T16:05:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。