論文の概要: CITISEN: A Deep Learning-Based Speech Signal-Processing Mobile
Application
- arxiv url: http://arxiv.org/abs/2008.09264v5
- Date: Mon, 25 Apr 2022 14:23:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 22:30:49.093294
- Title: CITISEN: A Deep Learning-Based Speech Signal-Processing Mobile
Application
- Title(参考訳): CitisEN: ディープラーニングに基づく音声信号処理モバイルアプリケーション
- Authors: Yu-Wen Chen, Kuo-Hsuan Hung, You-Jin Li, Alexander Chao-Fu Kang,
Ya-Hsin Lai, Kai-Chun Liu, Szu-Wei Fu, Syu-Siang Wang, Yu Tsao
- Abstract要約: 本研究では,CitisENと呼ばれる深層学習に基づく音声信号処理モバイルアプリケーションを提案する。
CitisENは、音声強調(SE)、モデル適応(MA)、背景雑音変換(BNC)の3つの機能を提供している。
雑音の多い音声信号と比較すると、改良された音声信号の約6%と33%の改善が達成された。
- 参考スコア(独自算出の注目度): 63.2243126704342
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study presents a deep learning-based speech signal-processing mobile
application known as CITISEN. The CITISEN provides three functions: speech
enhancement (SE), model adaptation (MA), and background noise conversion (BNC),
allowing CITISEN to be used as a platform for utilizing and evaluating SE
models and flexibly extend the models to address various noise environments and
users. For SE, a pretrained SE model downloaded from the cloud server is used
to effectively reduce noise components from instant or saved recordings
provided by users. For encountering unseen noise or speaker environments, the
MA function is applied to promote CITISEN. A few audio samples recording on a
noisy environment are uploaded and used to adapt the pretrained SE model on the
server. Finally, for BNC, CITISEN first removes the background noises through
an SE model and then mixes the processed speech with new background noise. The
novel BNC function can evaluate SE performance under specific conditions, cover
people's tracks, and provide entertainment. The experimental results confirmed
the effectiveness of SE, MA, and BNC functions. Compared with the noisy speech
signals, the enhanced speech signals achieved about 6\% and 33\% of
improvements, respectively, in terms of short-time objective intelligibility
(STOI) and perceptual evaluation of speech quality (PESQ). With MA, the STOI
and PESQ could be further improved by approximately 6\% and 11\%, respectively.
Finally, the BNC experiment results indicated that the speech signals converted
from noisy and silent backgrounds have a close scene identification accuracy
and similar embeddings in an acoustic scene classification model. Therefore,
the proposed BNC can effectively convert the background noise of a speech
signal and be a data augmentation method when clean speech signals are
unavailable.
- Abstract(参考訳): 本研究では,CitisENと呼ばれる深層学習に基づく音声信号処理モバイルアプリケーションを提案する。
CitisENは、音声強調(SE)、モデル適応(MA)、バックグラウンドノイズ変換(BNC)の3つの機能を提供している。
SEでは、クラウドサーバからダウンロードされた事前トレーニングされたSEモデルを使用して、ノイズコンポーネントをユーザが提供したインスタントまたは保存された記録から効果的に削減する。
耳障りな騒音や話者環境に遭遇する場合は,ma関数を用いてcitisenを促進させる。
ノイズの多い環境に記録されたいくつかのオーディオサンプルがアップロードされ、サーバ上で事前訓練されたSEモデルを適応するために使用される。
最後に、BNCの場合、CitisENはまずSEモデルを通してバックグラウンドノイズを除去し、次に処理された音声と新しいバックグラウンドノイズを混合する。
新規なBNC機能は、特定の条件下でSEパフォーマンスを評価し、人々のトラックをカバーし、エンターテイメントを提供する。
実験の結果,SE,MA,BNC機能の有効性が確認された。
雑音下での音声信号と比較すると,音声信号は,stoi(short-time objective intelligibility)とpesq(perceptual evaluation of speech quality)でそれぞれ約6\%,33\%向上した。
MAでは, STOI と PESQ をそれぞれ 6 % と 11 % に改善することができた。
最後に,bnc実験の結果から,雑音および無声背景から変換された音声信号は,音響シーン分類モデルに類似したシーン識別精度と類似した埋め込みを有することが示された。
そこで提案したBNCは,クリーン音声信号が利用できない場合に,音声信号の背景雑音を効果的に変換し,データ拡張手法である。
関連論文リスト
- Noise-Robust Target-Speaker Voice Activity Detection Through Self-Supervised Pretraining [21.26555178371168]
ターゲット話者音声活動検出(Target-Speaker Voice Activity Detection、TS-VAD)は、音声フレーム内の既知のターゲット話者から音声の存在を検出するタスクである。
ディープニューラルネットワークベースのモデルは、このタスクで優れたパフォーマンスを示している。
雑音条件下でのTS-VAD性能を向上させるための、因果的自己監視学習(SSL)事前トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-06T18:00:14Z) - Continuous Modeling of the Denoising Process for Speech Enhancement
Based on Deep Learning [61.787485727134424]
状態変数をデノナイジングプロセスを示すために使用します。
UNetのようなニューラルネットワークは、連続的復調プロセスからサンプリングされたすべての状態変数を推定することを学ぶ。
実験結果から, クリーンターゲットに少量の雑音を保存することは, 音声強調に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-09-17T13:27:11Z) - NLIP: Noise-robust Language-Image Pre-training [95.13287735264937]
雑音調和と雑音補完という2つの手法を用いて事前学習の安定化を図るため,NLIPの原理的手法を提案する。
我々のNLIPは、画像テキスト事前学習における一般的なノイズ効果をより効率的に軽減することができる。
論文 参考訳(メタデータ) (2022-12-14T08:19:30Z) - Inference and Denoise: Causal Inference-based Neural Speech Enhancement [83.4641575757706]
本研究では、雑音の存在を介入としてモデル化することにより、因果推論パラダイムにおける音声強調(SE)課題に対処する。
提案した因果推論に基づく音声強調(CISE)は,ノイズ検出器を用いて間欠雑音音声中のクリーンフレームとノイズフレームを分離し,両フレームセットを2つのマスクベース拡張モジュール(EM)に割り当て,ノイズ条件SEを実行する。
論文 参考訳(メタデータ) (2022-11-02T15:03:50Z) - NASTAR: Noise Adaptive Speech Enhancement with Target-Conditional
Resampling [34.565077865854484]
ターゲット条件再サンプリング(NASTAR)を用いた雑音適応音声強調手法を提案する。
NASTARはフィードバック機構を使用して、ノイズ抽出器と検索モデルを介して適応的なトレーニングデータをシミュレートする。
実験結果から,NASTARは1つの雑音のある音声サンプルを効果的に使用して,SEモデルを目標条件に適応させることができることがわかった。
論文 参考訳(メタデータ) (2022-06-18T00:15:48Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Training Speech Enhancement Systems with Noisy Speech Datasets [7.157870452667369]
本稿では,雑音の多い音声データに基づいてSEシステムの訓練を行うための2つの改良を提案する。
まず、雑音の多い音声のターゲットに対して頑健な損失関数のいくつかの修正を提案する。
従来のシステムと比較して,ロバストな損失関数を用いることでPSSQが最大0.19向上することを示す。
論文 参考訳(メタデータ) (2021-05-26T03:32:39Z) - Speech Enhancement for Wake-Up-Word detection in Voice Assistants [60.103753056973815]
キースポッティング、特にWake-Up-Word(WUW)検出は音声アシスタントにとって非常に重要なタスクである。
本稿では,WUW検出に適応した音声強調モデルを提案する。
これらのノイズの存在下で、認識率を高め、誤報を減らすことを目的としている。
論文 参考訳(メタデータ) (2021-01-29T18:44:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。