論文の概要: Non-Intrusive Binaural Speech Intelligibility Prediction from Discrete
Latent Representations
- arxiv url: http://arxiv.org/abs/2111.12531v1
- Date: Wed, 24 Nov 2021 14:55:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-25 16:06:20.778112
- Title: Non-Intrusive Binaural Speech Intelligibility Prediction from Discrete
Latent Representations
- Title(参考訳): 離散的潜在表現からの非インタラクティブバイノーラル音声明瞭度予測
- Authors: Alex F. McKinney, Benjamin Cauchi
- Abstract要約: 信号からの音声の可聴性予測は多くの用途で有用である。
信号の特性を考慮するために特別に設計された措置は、しばしば侵入的である。
本稿では,ベクトル量子化(VQ)とコントラッシブ予測符号化(CPC)を組み合わせた入力信号から特徴量を計算する非侵入型SI尺度を提案する。
- 参考スコア(独自算出の注目度): 1.1472707084860878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-intrusive speech intelligibility (SI) prediction from binaural signals is
useful in many applications. However, most existing signal-based measures are
designed to be applied to single-channel signals. Measures specifically
designed to take into account the binaural properties of the signal are often
intrusive - characterised by requiring access to a clean speech signal - and
typically rely on combining both channels into a single-channel signal before
making predictions. This paper proposes a non-intrusive SI measure that
computes features from a binaural input signal using a combination of vector
quantization (VQ) and contrastive predictive coding (CPC) methods. VQ-CPC
feature extraction does not rely on any model of the auditory system and is
instead trained to maximise the mutual information between the input signal and
output features. The computed VQ-CPC features are input to a predicting
function parameterized by a neural network. Two predicting functions are
considered in this paper. Both feature extractor and predicting functions are
trained on simulated binaural signals with isotropic noise. They are tested on
simulated signals with isotropic and real noise. For all signals, the ground
truth scores are the (intrusive) deterministic binaural STOI. Results are
presented in terms of correlations and MSE and demonstrate that VQ-CPC features
are able to capture information relevant to modelling SI and outperform all the
considered benchmarks - even when evaluating on data comprising of different
noise field types.
- Abstract(参考訳): バイノーラル信号からの非侵入的音声明瞭度(SI)予測は多くの用途で有用である。
しかし、既存の信号基準のほとんどは単一チャネル信号に適用するように設計されている。
信号のバイノーラル特性を考慮に入れるために特別に設計された手段は、しばしば侵入的であり、クリーンな音声信号へのアクセスを必要とすることで特徴付けられる。
本稿では,ベクトル量子化(VQ)法とコントラッシブ予測符号化(CPC)法を組み合わせてバイノーラル入力信号から特徴量を計算する非侵入型SI尺度を提案する。
VQ-CPC特徴抽出は聴覚系のいかなるモデルにも依存せず、代わりに入力信号と出力特徴との間の相互情報を最大化するよう訓練される。
計算されたVQ-CPC機能は、ニューラルネットワークによってパラメータ化された予測関数に入力される。
本稿では2つの予測関数について考察する。
等方性雑音を伴う模擬バイノーラル信号に対して特徴抽出関数と予測関数の両方を訓練する。
それらは等方性および実際のノイズを伴うシミュレーション信号でテストされる。
すべての信号に対して、根底的な真理スコアは(侵入的な)決定論的バイノーラルSTOIである。
結果は相関やMSEの観点で示され、VQ-CPCの機能は、SIのモデリングに関連する情報をキャプチャし、異なるノイズフィールドタイプからなるデータを評価する場合であっても、考慮されたベンチマークをすべて上回っていることを示す。
関連論文リスト
- Noise-Resilient Unsupervised Graph Representation Learning via Multi-Hop Feature Quality Estimation [53.91958614666386]
グラフニューラルネットワーク(GNN)に基づく教師なしグラフ表現学習(UGRL)
マルチホップ特徴量推定(MQE)に基づく新しいUGRL法を提案する。
論文 参考訳(メタデータ) (2024-07-29T12:24:28Z) - On Designing Features for Condition Monitoring of Rotating Machines [7.830376406370754]
回転機械の故障認識のための入力特徴を設計するための様々な手法が提案されている。
本稿では,異なる時系列センサデータに対する特徴抽出を統一する入力特徴を設計するための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-15T14:08:08Z) - Complex-valued neural networks for voice anti-spoofing [1.1510009152620668]
現在のアンチスプーフィングおよびオーディオディープフェイク検出システムは、CQTやメルスペクトログラムのような等級スペクトルベースの特徴または畳み込みやシンク層によって処理される生オーディオを使用する。
本稿では,複雑な数値ニューラルネットワークを用いて入力音声を処理することにより,両手法の利点を組み合わせた新しい手法を提案する。
その結果、この手法は"In-the-Wild"アンチスプーフィングデータセットの従来の手法よりも優れており、説明可能なAIによる結果の解釈を可能にしていることがわかった。
論文 参考訳(メタデータ) (2023-08-22T21:49:38Z) - Investigation of Self-supervised Pre-trained Models for Classification
of Voice Quality from Speech and Neck Surface Accelerometer Signals [27.398425786898223]
本研究では,音声品質の分類における音声とNSA信号の同時記録について検討した。
事前学習モデルの有効性は,音声入力とNSA入力の両方に対して,声門音源波形と生信号波形の特徴抽出において比較される。
論文 参考訳(メタデータ) (2023-08-06T23:16:54Z) - MBI-Net: A Non-Intrusive Multi-Branched Speech Intelligibility
Prediction Model for Hearing Aids [22.736703635666164]
本稿では,聴覚補聴器(HA)利用者の主観的了解度スコアを予測するためのマルチブランチ音声明瞭度予測モデル(MBI-Net)を提案する。
2つの枝の出力は、線形層を介して融合され、予測された音声の可知性スコアを得る。
論文 参考訳(メタデータ) (2022-04-07T09:13:44Z) - DeepA: A Deep Neural Analyzer For Speech And Singing Vocoding [71.73405116189531]
本稿では,従来のボコーダで定義されている音声をエミュレートする入力音声から,F0と音節/音節/音節のエンコーディングを抽出するニューラルボコーダを提案する。
ディープ・ニューラル・アナライザは学習可能であるため、信号の再構成と操作がより正確であり、音声から歌への一般化が期待できる。
論文 参考訳(メタデータ) (2021-10-13T01:39:57Z) - Training a Deep Neural Network via Policy Gradients for Blind Source
Separation in Polyphonic Music Recordings [1.933681537640272]
音響信号における楽器の音の盲点分離法を提案する。
パラメトリックモデルを用いて個々の音色を記述し、辞書を訓練し、高調波の相対振幅を捉える。
提案アルゴリズムは,様々な音声サンプルに対して,特に低干渉で高品質な結果が得られる。
論文 参考訳(メタデータ) (2021-07-09T06:17:04Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Optimal Learning with Excitatory and Inhibitory synapses [91.3755431537592]
相関関係の存在下でアナログ信号間の関連性を保持するという課題について検討する。
ランダムな入力および出力プロセスのパワースペクトルの観点から、典型的な学習性能を特徴付ける。
論文 参考訳(メタデータ) (2020-05-25T18:25:54Z) - Data-Driven Symbol Detection via Model-Based Machine Learning [117.58188185409904]
機械学習(ML)とモデルベースアルゴリズムを組み合わせた,検出設計のシンボル化を目的とした,データ駆動型フレームワークについてレビューする。
このハイブリッドアプローチでは、よく知られたチャネルモデルに基づくアルゴリズムをMLベースのアルゴリズムで拡張し、チャネルモデル依存性を除去する。
提案手法は, 正確なチャネル入出力統計関係を知らなくても, モデルベースアルゴリズムのほぼ最適性能が得られることを示す。
論文 参考訳(メタデータ) (2020-02-14T06:58:27Z) - Generating diverse and natural text-to-speech samples using a quantized
fine-grained VAE and auto-regressive prosody prior [53.69310441063162]
本稿では,より自然な音響サンプルを生成できる離散潜在空間における逐次前処理を提案する。
本研究では,聴取試験,自動音声認識(ASR)性能の客観的指標,韻律特性の測定によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T12:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。