論文の概要: Wideband Audio Waveform Evaluation Networks: Efficient, Accurate
Estimation of Speech Qualities
- arxiv url: http://arxiv.org/abs/2206.13272v1
- Date: Mon, 27 Jun 2022 13:08:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 17:17:34.745064
- Title: Wideband Audio Waveform Evaluation Networks: Efficient, Accurate
Estimation of Speech Qualities
- Title(参考訳): 広帯域音声波形評価ネットワーク : 効率的・高精度な音声品質推定
- Authors: Andrew Catellier and Stephen Voran
- Abstract要約: WAWEnetは広帯域オーディオ波形上で直接動作する畳み込みニューラルネットワークである。
我々は、7つの異なる品質と知能の値を密に追跡する単一のWAWEnetを提案する。
我々は、4つの主観的な音声品質の次元を追跡する第2のネットワークを構築した。
私たちは、主観的な品質スコアのみに焦点を当て、非常に高いレベルの合意を達成する第3のネットワークを提供します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Wideband Audio Waveform Evaluation Networks (WAWEnets) are convolutional
neural networks that operate directly on wideband audio waveforms in order to
produce evaluations of those waveforms. In the present work these evaluations
give qualities of telecommunications speech (e.g., noisiness, intelligibility,
overall speech quality). WAWEnets are no-reference networks because they do not
require ``reference'' (original or undistorted) versions of the waveforms they
evaluate. Our initial WAWEnet publication introduced four WAWEnets and each
emulated the output of an established full-reference speech quality or
intelligibility estimation algorithm.
We have updated the WAWEnet architecture to be more efficient and effective.
Here we present a single WAWEnet that closely tracks seven different quality
and intelligibility values. We create a second network that additionally tracks
four subjective speech quality dimensions. We offer a third network that
focuses on just subjective quality scores and achieves very high levels of
agreement. This work has leveraged 334 hours of speech in 13 languages, over
two million full-reference target values and over 93,000 subjective mean
opinion scores.
We also interpret the operation of WAWEnets and identify the key to their
operation using the language of signal processing: ReLUs strategically move
spectral information from non-DC components into the DC component. The DC
values of 96 output signals define a vector in a 96-D latent space and this
vector is then mapped to a quality or intelligibility value for the input
waveform.
- Abstract(参考訳): 広帯域オーディオ波形評価ネットワーク (wawenets) は、広帯域オーディオ波形を直接操作し、それらの波形の評価を生成する畳み込みニューラルネットワークである。
本研究では,これらの評価により,電気通信音声の品質(例えば,ノイズ,不明瞭性,全体的な音声品質)が提供される。
WAWEnetは、評価する波形の ''reference' (オリジナルまたは非歪)' バージョンを必要としないため、参照ネットワークではない。
我々の最初のWAWEnetは4つのWAWEnetを導入し、それぞれが確立された完全参照音声品質またはインテリジェンス推定アルゴリズムの出力をエミュレートした。
我々はWAWEnetアーキテクチャをより効率的かつ効果的に更新した。
ここでは、7つの異なる品質とインテリジェンス値を密に追跡する単一のWAWEnetを示す。
4つの主観的音声品質の次元を追跡する第2のネットワークを構築する。
私たちは、主観的品質スコアのみに焦点を当て、非常に高いレベルの合意を達成する第3のネットワークを提供します。
この研究は13言語で334時間のスピーチ、200万以上の完全な参照目標値、93,000以上の主観的平均評価スコアを活用している。
また、WAWEnetの動作を解釈し、信号処理の言語を用いてその動作の鍵を識別する:ReLUは、スペクトル情報をDC成分からDC成分へ戦略的に移動させる。
96の出力信号の直流値は96-Dの潜在空間におけるベクトルを定義し、このベクトルを入力波形の品質または可視値にマッピングする。
関連論文リスト
- Leveraging Symmetrical Convolutional Transformer Networks for Speech to
Singing Voice Style Transfer [49.01417720472321]
我々は、入力音声とターゲットメロディのアライメントをモデル化する、SymNetと呼ばれる新しいニューラルネットワークアーキテクチャを開発する。
音声と歌声の並列データからなるNASデータセットとNHSSデータセットで実験を行う。
論文 参考訳(メタデータ) (2022-08-26T02:54:57Z) - Enhancing Zero-Shot Many to Many Voice Conversion with Self-Attention
VAE [8.144263449781967]
変分自動エンコーダ(VAE)は、音声の発声を話者識別と言語内容の潜伏埋め込みに分解する有効なニューラルネットワークアーキテクチャである。
本研究では,VAEのデコーダの適切な位置から,変換音声を生成する際に,非局所情報を組み込む自己アテンション層を付加した。
論文 参考訳(メタデータ) (2022-03-30T03:52:42Z) - Speech-enhanced and Noise-aware Networks for Robust Speech Recognition [25.279902171523233]
音声強調と音声認識を協調的に最適化するために,2つのカスケードニューラルネットワーク構造に基づく雑音認識学習フレームワークを提案する。
提案した2つのシステムは,オーロラ4タスクにおいてそれぞれ3.90%と3.55%の単語誤り率(WER)を達成する。
CNN-TDNNF ベースのシステムは,Bigram と Trigram の言語モデルを用いた復号化システムと比較して,それぞれ 15.20% と 33.53% の WER 削減を実現している。
論文 参考訳(メタデータ) (2022-03-25T15:04:51Z) - Real-time Speaker counting in a cocktail party scenario using
Attention-guided Convolutional Neural Network [60.99112031408449]
重なり合う音声におけるアクティブ話者数を推定するために,CNN(Real-time, Single-channel attention-guided Convolutional Neural Network)を提案する。
提案システムは,CNNモデルを用いて音声スペクトルから高レベル情報を抽出する。
WSJコーパスを用いた重畳音声のシミュレーション実験により,従来の時間平均プーリングに比べて,注意解がほぼ3%向上することが示されている。
論文 参考訳(メタデータ) (2021-10-30T19:24:57Z) - DelightfulTTS: The Microsoft Speech Synthesis System for Blizzard
Challenge 2021 [31.750875486806184]
本稿では、Microsoftのエンドツーエンドニューラルテキスト音声合成システム(TTS: DelightfulTTS for Blizzard Challenge 2021)について述べる。
この課題の目的は、テキストから自然かつ高品質な音声を合成することであり、我々はこの目標に2つの視点でアプローチする。
論文 参考訳(メタデータ) (2021-10-25T02:47:59Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Speaker Conditional WaveRNN: Towards Universal Neural Vocoder for Unseen
Speaker and Recording Conditions [19.691323658303435]
従来のニューラルボコーダは、トレーニングスピーカーに調整され、目に見えない話者に対する一般化能力に乏しい。
我々は、話者条件付きWaveRNN(SC-WaveRNN)と呼ばれるWaveRNNの変種を提案する。
標準のWaveRNNとは対照的に、SC-WaveRNNは話者埋め込みという形で追加情報を利用する。
論文 参考訳(メタデータ) (2020-08-09T13:54:46Z) - VQVC+: One-Shot Voice Conversion by Vector Quantization and U-Net
architecture [71.45920122349628]
自動エンコーダベースのVC手法は、話者のアイデンティティを付与することなく、入力音声中の話者とコンテンツをアンタングルする。
自動エンコーダベースのVCシステムでは,U-Netアーキテクチャを用いて音質を向上する。
論文 参考訳(メタデータ) (2020-06-07T14:01:16Z) - Conformer: Convolution-augmented Transformer for Speech Recognition [60.119604551507805]
最近、トランスフォーマーと畳み込みニューラルネットワーク(CNN)に基づくモデルが、自動音声認識(ASR)の有望な結果を示している。
音声認識のための畳み込み拡張変換器,Conformerを提案する。
広く使われているLibriSpeechベンチマークでは、言語モデルを用いずにWERが2.1%/4.3%、テスト/テストの外部言語モデルで1.9%/3.9%を達成した。
論文 参考訳(メタデータ) (2020-05-16T20:56:25Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。