Fugu-MT 論文翻訳(概要): CCATMos: Convolutional Context-aware Transformer Network for Non-intrusive Speech Quality Assessment

論文の概要: CCATMos: Convolutional Context-aware Transformer Network for Non-intrusive Speech Quality Assessment

arxiv url: http://arxiv.org/abs/2211.02577v1
Date: Fri, 4 Nov 2022 16:46:11 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-07 17:45:47.719835
Title: CCATMos: Convolutional Context-aware Transformer Network for Non-intrusive Speech Quality Assessment
Title（参考訳）: CCATMos:非侵入的音声品質評価のための畳み込みコンテキスト対応変圧器ネットワーク
Authors: Yuchen Liu, Li-Chia Yang, Alex Pawlicki, Marko Stamenovic
Abstract要約: 本研究では,人間の評価スコア(MOS)を予測するために,CCAT(Convolutional Context-Aware Transformer)ネットワークと呼ばれる新しいエンド・ツー・エンドのモデル構造を提案する。我々は、複数の言語と歪みタイプにまたがる3つのMOSアノテーション付きデータセット上でモデルを評価し、その結果をConferenceSpeech 2022 Challengeに提出する。
参考スコア（独自算出の注目度）: 12.497279501767606
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Speech quality assessment has been a critical component in many voice communication related applications such as telephony and online conferencing. Traditional intrusive speech quality assessment requires the clean reference of the degraded utterance to provide an accurate quality measurement. This requirement limits the usability of these methods in real-world scenarios. On the other hand, non-intrusive subjective measurement is the ``golden standard" in evaluating speech quality as human listeners can intrinsically evaluate the quality of any degraded speech with ease. In this paper, we propose a novel end-to-end model structure called Convolutional Context-Aware Transformer (CCAT) network to predict the mean opinion score (MOS) of human raters. We evaluate our model on three MOS-annotated datasets spanning multiple languages and distortion types and submit our results to the ConferencingSpeech 2022 Challenge. Our experiments show that CCAT provides promising MOS predictions compared to current state-of-art non-intrusive speech assessment models with average Pearson correlation coefficient (PCC) increasing from 0.530 to 0.697 and average RMSE decreasing from 0.768 to 0.570 compared to the baseline model on the challenge evaluation test set.
Abstract（参考訳）: 音声品質評価は、電話やオンライン会議など、多くの音声通信関連アプリケーションにおいて重要な要素である。従来の侵入的音声品質評価は、正確な品質測定を提供するために、劣化した発話のクリーンな参照を必要とする。この要件は、実際のシナリオでこれらのメソッドの使用性を制限する。一方, 音声品質評価において, 非インタラクティブ主観的測定は「黄金標準」であり, 人間の聴き手は, 劣化した音声の質を本質的に容易に評価できる。本稿では,人間のレーダの平均世論スコア(MOS)を予測するために,CCAT(Convolutional Context-Aware Transformer)ネットワークと呼ばれる新しいエンドツーエンドモデル構造を提案する。我々は,複数の言語と歪み型にまたがる3つのmosアノテートデータセットのモデルを評価し,その結果をconferencingspeech 2022 challengeに提出した。実験の結果、CCATは、平均ピアソン相関係数(PCC)が0.530から0.697に増加し、平均RMSEが0.768から0.570に低下し、現在最先端の非侵襲的音声評価モデルと比較して有望なMOS予測を提供することがわかった。

関連論文リスト

SALF-MOS: Speaker Agnostic Latent Features Downsampled for MOS Prediction [1.8862680628828246]
音声合成の評価は、客観的指標または主観的指標を用いて行うことができる。 Speaker Agnostic Latent Features (SALF)-Mean Opinion Score (MOS)は,5。畳み込みのシーケンスを用いて、平均二乗誤差(MSE)、線形一致相関係数(LCC)、スピアマンランク相関係数(SRCC)、ケンドールランク相関係数(KTAU)に基づいて、音声サンプルの潜時特徴を得る。
論文参考訳（メタデータ） (2025-06-02T10:45:40Z)
Towards Robust Assessment of Pathological Voices via Combined Low-Level Descriptors and Foundation Model Representations [39.31175048498422]
本研究では,声質評価ネットワーク (VOQANet) を提案する。また,低レベル音声記述子であるjitter,shimmer,haronics-to-noise ratio(HNR)とSFMをハイブリッド表現に組み込んだVOQANet+を導入する。以上の結果から,特に患者レベルでの母音による入力は,音声属性を抽出する発話の長大さに優れることがわかった。
論文参考訳（メタデータ） (2025-05-27T15:48:17Z)
CSEval: Towards Automated, Multi-Dimensional, and Reference-Free Counterspeech Evaluation using Auto-Calibrated LLMs [18.827745815939213]
CSEvalは、4次元にわたる対音声品質を評価するための新しいデータセットとフレームワークである。本稿では,自動校正チェーンオブ思考を用いた自動校正COT(Auto-CSEval for Counterspeech Evaluation, 自動CSEval)を提案する。実験の結果、Auto-CSEvalは、ROUGE、METEOR、BertScoreといった従来の指標よりも、人間の判断に関連があることが判明した。
論文参考訳（メタデータ） (2025-01-29T11:38:29Z)
Challenge on Sound Scene Synthesis: Evaluating Text-to-Audio Generation [8.170174172545831]
本稿では,2024年における音響シーン・イベントの検出・分類の一環として,音シーン合成の課題に対処する。本稿では,Fr'echet Audio Distanceと知覚的アセスメントを組み合わせた評価手法を提案する。
論文参考訳（メタデータ） (2024-10-23T06:35:41Z)
CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文参考訳（メタデータ） (2024-09-19T17:59:52Z)
Exploring Pathological Speech Quality Assessment with ASR-Powered Wav2Vec2 in Data-Scarce Context [7.567181073057191]
本稿では,データ不足にもかかわらずセグメントではなく,音声レベルで学習する手法を提案する。その結果, ASR に基づく Wav2Vec2 モデルが最高の結果をもたらし, ASR と音声品質評価との間に強い相関関係があることが示唆された。
論文参考訳（メタデータ） (2024-03-29T13:59:34Z)
Self-Supervised Speech Quality Estimation and Enhancement Using Only Clean Speech [50.95292368372455]
ベクトル量子化変分オートエンコーダ(VQ-VAE)の量子化誤差に基づく音声評価のための自己教師付きメトリックであるVQScoreを提案する。 VQ-VAEのトレーニングはクリーン音声に依存するため、音声が歪んだときに大きな量子化誤差が期待できる。また,ベクトル量子化機構は,自己教師付き音声強調(SE)モデルトレーニングにも有効であることがわかった。
論文参考訳（メタデータ） (2024-02-26T06:01:38Z)
SpeechLMScore: Evaluating speech generation using speech language model [43.20067175503602]
本稿では,音声認識モデルを用いて生成した音声を評価するための教師なしメトリックであるSpeechLMScoreを提案する。人間のアノテーションは必要とせず、高度にスケーラブルなフレームワークです。評価結果は,提案手法が音声生成タスクにおける評価スコアと有望な相関を示すことを示す。
論文参考訳（メタデータ） (2022-12-08T21:00:15Z)
Using Rater and System Metadata to Explain Variance in the VoiceMOS Challenge 2022 Dataset [71.93633698146002]
VoiceMOS 2022チャレンジでは、合成音声変換と主観的なラベル付き音声音声合成サンプルのデータセットが提供された。本研究では,メタデータからの音声品質の主観評価とデータセットの分布不均衡から説明できる分散量について検討する。
論文参考訳（メタデータ） (2022-09-14T00:45:49Z)
NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level Quality [123.97136358092585]
我々は、ベンチマークデータセット上で人間レベルの品質を実現するNaturalSpeechと呼ばれるTSシステムを開発した。具体的には、波形生成のための変分オートエンコーダ(VAE)を利用する。 LJSpeechデータセットを用いた実験により,提案したNaturalSpeechは文レベルでの人間の記録に対して-0.01CMOSを達成した。
論文参考訳（メタデータ） (2022-05-09T16:57:35Z)
Deep Learning-based Non-Intrusive Multi-Objective Speech Assessment Model with Cross-Domain Features [30.57631206882462]
MOSA-Netは、テスト音声信号を入力として、音声品質、知性、歪み評価スコアを推定するように設計されている。音声品質(PESQ)、短時間客観性(STOI)、音声歪み指数(BLS)のスコアを、雑音および拡張音声発話の両方で正確に予測できることを,MOSA-Netが示す。
論文参考訳（メタデータ） (2021-11-03T17:30:43Z)
LDNet: Unified Listener Dependent Modeling in MOS Prediction for Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文参考訳（メタデータ） (2021-10-18T08:52:31Z)
Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。 CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。 RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文参考訳（メタデータ） (2020-04-22T19:08:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。