Fugu-MT 論文翻訳(概要): Full-Reference Speech Quality Estimation with Attentional Siamese Neural Networks

論文の概要: Full-Reference Speech Quality Estimation with Attentional Siamese Neural Networks

arxiv url: http://arxiv.org/abs/2105.00783v1
Date: Mon, 3 May 2021 12:38:25 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-04 14:14:45.075066
Title: Full-Reference Speech Quality Estimation with Attentional Siamese Neural Networks
Title（参考訳）: 注意型シームズニューラルネットワークを用いた全参照音声品質推定
Authors: Gabriel Mittags, Sebastian M\"oller
Abstract要約: 深層学習アプローチを用いた完全参照音声品質予測モデルを提案する。モデルは、シームス繰り返し畳み込みネットワークを介して参照と劣化した信号の特徴表現を決定する。得られた特徴は、信号と注意機構を合わせるために使用され、最後に合成され、音声の全体的な品質を推定する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we present a full-reference speech quality prediction model with a deep learning approach. The model determines a feature representation of the reference and the degraded signal through a siamese recurrent convolutional network that shares the weights for both signals as input. The resulting features are then used to align the signals with an attention mechanism and are finally combined to estimate the overall speech quality. The proposed network architecture represents a simple solution for the time-alignment problem that occurs for speech signals transmitted through Voice-Over-IP networks and shows how the clean reference signal can be incorporated into speech quality models that are based on end-to-end trained neural networks.
Abstract（参考訳）: 本稿では,深層学習を用いた全参照音声品質予測モデルを提案する。モデルは、入力として両方の信号の重みを共有するシアム再帰畳み込みネットワークを介して、参照信号と劣化信号の特徴表現を決定する。得られた特徴は、信号と注意機構を合わせるために使用され、最後に合成され、音声の全体的な品質を推定する。提案するネットワークアーキテクチャは,Voice-Over-IPネットワークを介して送信される音声信号に対して発生する時間調整問題の簡単な解を示し,そのクリーン参照信号をエンドツーエンドのニューラルネットワークに基づく音声品質モデルに組み込む方法を示す。

関連論文リスト

Speech enhancement with frequency domain auto-regressive modeling [34.55703785405481]
遠距離実環境における音声アプリケーションは、残響によって破損した信号を扱うことが多い。本稿では,音声品質と自動音声認識(ASR)性能を向上させるために,音声認識の統一的枠組みを提案する。
論文参考訳（メタデータ） (2023-09-24T03:25:51Z)
Audio-Visual Speech Enhancement with Score-Based Generative Models [22.559617939136505]
本稿では,スコアベース生成モデルを利用した音声・視覚音声強調システムを提案する。我々は,リップリーディングを微調整した自己超視的学習モデルから得られる音声-視覚的埋め込みを利用する。実験により,提案した音声・視覚音声強調システムにより,音声の質が向上することが確認された。
論文参考訳（メタデータ） (2023-06-02T10:43:42Z)
Streaming Audio-Visual Speech Recognition with Alignment Regularization [69.30185151873707]
本稿では,ハイブリッド接続型時間分類(CTC)/アテンションニューラルネットワークアーキテクチャに基づくストリーミングAV-ASRシステムを提案する。提案したAV-ASRモデルは、オフラインおよびオンライン設定でLip Reading Sentences 3データセット上で、WERの2.0%と2.6%を達成する。
論文参考訳（メタデータ） (2022-11-03T20:20:47Z)
Leveraging Symmetrical Convolutional Transformer Networks for Speech to Singing Voice Style Transfer [49.01417720472321]
我々は、入力音声とターゲットメロディのアライメントをモデル化する、SymNetと呼ばれる新しいニューラルネットワークアーキテクチャを開発する。音声と歌声の並列データからなるNASデータセットとNHSSデータセットで実験を行う。
論文参考訳（メタデータ） (2022-08-26T02:54:57Z)
A Study of Designing Compact Audio-Visual Wake Word Spotting System Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文参考訳（メタデータ） (2022-02-17T08:26:25Z)
Visualising and Explaining Deep Learning Models for Speech Quality Prediction [0.0]
本稿では,非侵入的音声品質予測モデルであるNISQAについて分析する。畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)から構成される。
論文参考訳（メタデータ） (2021-12-12T12:50:03Z)
HASA-net: A non-intrusive hearing-aid speech assessment network [52.83357278948373]
本稿では,DNNに基づく聴覚支援音声評価ネットワーク(HASA-Net)を提案する。我々の知る限り、HASA-Netは、DNNに基づく統合型非侵襲的補聴器モデルを用いて、品質とインテリジェンスの評価を取り入れた最初の研究である。実験結果から,HASA-Netの予測音声品質と難聴度スコアは,2つのよく知られた難聴度評価指標と高い相関を示した。
論文参考訳（メタデータ） (2021-11-10T14:10:13Z)
Data Fusion for Audiovisual Speaker Localization: Extending Dynamic Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文参考訳（メタデータ） (2021-02-23T09:59:31Z)
Adaptation Algorithms for Neural Network-Based Speech Recognition: An Overview [43.12352697785169]
本稿では,ニューラルネットワークを用いた音声認識のための適応アルゴリズムについて概説する。この概要は、埋め込み、モデルパラメータ適応、データ拡張に基づく適応アルゴリズムを特徴付ける。本稿では,本論文で報告されているような相対誤差率の低減に基づく音声認識適応アルゴリズムの性能のメタ分析を行う。
論文参考訳（メタデータ） (2020-08-14T21:50:03Z)
Sparse Mixture of Local Experts for Efficient Speech Enhancement [19.645016575334786]
本稿では,専門的ニューラルネットワークの効率的なアンサンブルを通して,音声を聴覚的に認識するためのディープラーニング手法について検討する。タスクを重複しないサブプロブレムに分割することで、計算複雑性を低減しつつ、デノナイジング性能を向上させることができる。以上の結果から,微調整されたアンサンブルネットワークは,一般のネットワークの発声能力を上回ることができることがわかった。
論文参考訳（メタデータ） (2020-05-16T23:23:22Z)
AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文参考訳（メタデータ） (2020-05-07T02:53:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。