論文の概要: Optimization of a Real-Time Wavelet-Based Algorithm for Improving Speech
Intelligibility
- arxiv url: http://arxiv.org/abs/2202.02545v1
- Date: Sat, 5 Feb 2022 13:03:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-11 10:43:42.059857
- Title: Optimization of a Real-Time Wavelet-Based Algorithm for Improving Speech
Intelligibility
- Title(参考訳): 実時間ウェーブレットに基づく音声明瞭度向上アルゴリズムの最適化
- Authors: Tianqu Kang, Anh-Dung Dinh, Binghong Wang, Tianyuan Du, Yijia Chen,
and Kevin Chau (Hong Kong University of Science and Technology)
- Abstract要約: 離散時間音声信号は、マルチレベル離散ウェーブレット変換を介して周波数サブバンドに分割される。
信号エネルギーを一定に保ちながらサブバンドゲインを調整する。
種々の背景干渉および模擬聴力損失条件下での音声の可聴性を向上させる。
- 参考スコア(独自算出の注目度): 1.0554048699217666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The optimization of a wavelet-based algorithm to improve speech
intelligibility is reported. The discrete-time speech signal is split into
frequency sub-bands via a multi-level discrete wavelet transform. Various gains
are applied to the sub-band signals before they are recombined to form a
modified version of the speech. The sub-band gains are adjusted while keeping
the overall signal energy unchanged, and the speech intelligibility under
various background interference and simulated hearing loss conditions is
enhanced and evaluated objectively and quantitatively using Google
Speech-to-Text transcription. For English and Chinese noise-free speech,
overall intelligibility is improved, and the transcription accuracy can be
increased by as much as 80 percentage points by reallocating the spectral
energy toward the mid-frequency sub-bands, effectively increasing the
consonant-vowel intensity ratio. This is reasonable since the consonants are
relatively weak and of short duration, which are therefore the most likely to
become indistinguishable in the presence of background noise or high-frequency
hearing impairment. For speech already corrupted by noise, improving
intelligibility is challenging but still realizable. The proposed algorithm is
implementable for real-time signal processing and comparatively simpler than
previous algorithms. Potential applications include speech enhancement, hearing
aids, machine listening, and a better understanding of speech intelligibility.
- Abstract(参考訳): ウェーブレットに基づく音声明瞭度向上アルゴリズムの最適化について報告する。
離散時間音声信号は、マルチレベル離散ウェーブレット変換により周波数サブバンドに分割される。
様々なゲインがサブバンド信号に適用され、それらが再結合されて音声の修正版を形成する。
信号全体のエネルギーを一定に保ち、サブバンドゲインを調整し、Google Speech-to-Text転写を用いて、様々な背景干渉および模擬聴力損失条件下での音声の可聴性を高め、客観的に定量的に評価する。
英語と中国語のノイズフリー音声では、全体的な理解性が向上し、中周波サブバンドに向けてスペクトルエネルギーを再配置することにより、80ポイントの精度向上が可能となり、共振・母音強度比が効果的に向上する。
これは、子音が比較的弱く、短い時間であるため、背景雑音や高周波難聴の有無で区別できない可能性が最も高いため、合理的である。
音声はノイズで劣化しており、知性の向上は難しいが、まだ実現不可能だ。
提案アルゴリズムはリアルタイム信号処理のために実装可能であり,従来のアルゴリズムよりも比較的単純である。
潜在的な用途としては、音声強調、補聴器、機械の聴き取り、音声の理解度の向上などがある。
関連論文リスト
- FlashSpeech: Efficient Zero-Shot Speech Synthesis [37.883762387219676]
FlashSpeechは、大規模なゼロショット音声合成システムであり、従来の作業と比べて約5%の推論時間を持つ。
我々は,FlashSpeechが他のゼロショット音声合成システムよりも約20倍高速でありながら,音声品質と類似性において同等の性能を維持していることを示す。
論文 参考訳(メタデータ) (2024-04-23T02:57:46Z) - Continuous Modeling of the Denoising Process for Speech Enhancement
Based on Deep Learning [61.787485727134424]
状態変数をデノナイジングプロセスを示すために使用します。
UNetのようなニューラルネットワークは、連続的復調プロセスからサンプリングされたすべての状態変数を推定することを学ぶ。
実験結果から, クリーンターゲットに少量の雑音を保存することは, 音声強調に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-09-17T13:27:11Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - Improving Speech Enhancement through Fine-Grained Speech Characteristics [42.49874064240742]
そこで本稿では,強調信号の知覚的品質と自然性の向上を目的とした音声強調手法を提案する。
まず,音声品質と相関する重要な音響パラメータを同定する。
次に,これらの特徴について,クリーン音声と拡張音声との差を低減することを目的とした目的関数を提案する。
論文 参考訳(メタデータ) (2022-07-01T07:04:28Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Spectro-Temporal Deep Features for Disordered Speech Assessment and
Recognition [65.25325641528701]
音声スペクトルのSVD分解による深い特徴を埋め込んだ新しいスペクトル時空間ベースを提案する。
UASpeechコーパスで行った実験では、提案された分光時間深部特徴適応システムは、データ拡張の有無にかかわらず、ワードエラー率(WER)を最大263%(相対8.6%)削減することで、ベースラインi-適応を一貫して上回ったことが示唆された。
論文 参考訳(メタデータ) (2022-01-14T16:56:43Z) - High Fidelity Speech Regeneration with Application to Speech Enhancement [96.34618212590301]
本稿では,24khz音声をリアルタイムに生成できる音声のwav-to-wav生成モデルを提案する。
音声変換法に着想を得て,音源の同一性を保ちながら音声特性を増強する訓練を行った。
論文 参考訳(メタデータ) (2021-01-31T10:54:27Z) - Text-to-speech for the hearing impaired [0.0]
テキスト音声(TTS)システムは、受信端で補正するのではなく、音源の聴覚損失を補うことができる。
本研究では,高分解能時間,周波数,レベルにおいて,音質を正常な知覚に復元するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-03T18:52:03Z) - Gated Recurrent Fusion with Joint Training Framework for Robust
End-to-End Speech Recognition [64.9317368575585]
本稿では,ロバスト・エンド・ツー・エンドASRのためのジョイント・トレーニング・フレームワークを用いたゲート・リカレント・フュージョン(GRF)法を提案する。
GRFアルゴリズムはノイズと拡張された特徴を動的に組み合わせるために使用される。
提案手法は従来の関節強化・変圧器法に比べて10.04%の相対的文字誤り率(CER)低減を実現する。
論文 参考訳(メタデータ) (2020-11-09T08:52:05Z) - Detection of Glottal Closure Instants from Speech Signals: a
Quantitative Review [9.351195374919365]
最先端の5つのGCI検出アルゴリズムを6つのデータベースを用いて比較する。
これらの手法の有効性は, 可読性と精度の両面から, クリーン音声で評価される。
クリーン音声では, SEDREAMS と YAGA が識別率と精度の両面で最良であることを示す。
論文 参考訳(メタデータ) (2019-12-28T14:12:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。