論文の概要: Real-Time Band-Grouped Vocal Denoising Using Sigmoid-Driven Ideal Ratio Masking
- arxiv url: http://arxiv.org/abs/2603.29326v1
- Date: Tue, 31 Mar 2026 06:48:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.239001
- Title: Real-Time Band-Grouped Vocal Denoising Using Sigmoid-Driven Ideal Ratio Masking
- Title(参考訳): Sigmoid-Driven Ideal Ratio Masking を用いたリアルタイム帯域グループ発声
- Authors: Daniel Williams,
- Abstract要約: 本研究では,SNRの増大と音声の知覚品質の最大化を図るために,スペクトル損失を訓練したシグモイド駆動の理想比マスクを提案する。
PESQ-WBは定常雑音では0.21、非定常雑音では0.12である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-time, deep learning-based vocal denoising has seen significant progress over the past few years, demonstrating the capability of artificial intelligence in preserving the naturalness of the voice while increasing the signal-to-noise ratio (SNR). However, many deep learning approaches have high amounts of latency and require long frames of context, making them difficult to configure for live applications. To address these challenges, we propose a sigmoid-driven ideal ratio mask trained with a spectral loss to encourage an increased SNR and maximized perceptual quality of the voice. The proposed model uses a band-grouped encoder-decoder architecture with frequency attention and achieves a total latency of less than 10,ms, with PESQ-WB improvements of 0.21 on stationary noise and 0.12 on nonstationary noise.
- Abstract(参考訳): リアルタイム, 深層学習に基づく発声は, 音声の自然性を保ちつつ, 信号対雑音比(SNR)を増大させる人工知能の能力を示すなど, ここ数年で著しい進歩を遂げている。
しかし、多くのディープラーニングアプローチはレイテンシが高く、コンテキストの長いフレームを必要とするため、ライブアプリケーションの設定が難しい。
これらの課題に対処するために、スペクトル損失を訓練したシグモイド駆動の理想比マスクを提案し、SNRの増大と音声の知覚品質の最大化を図った。
PESQ-WBは定常雑音では0.21、非定常雑音では0.12である。
関連論文リスト
- TS-DP: Reinforcement Speculative Decoding For Temporal Adaptive Diffusion Policy Acceleration [64.32072516882947]
拡散ポリシーは、具体的制御が優れているが、高い推論遅延と計算コストに悩まされている。
時間認識強化に基づく投機的拡散政策(TS-DP)を提案する。
TS-DPは94%以上のドラフトで最大4.17倍高速な推論を実現し、推論周波数は25Hzに達した。
論文 参考訳(メタデータ) (2025-12-13T07:53:14Z) - How Does Label Noise Gradient Descent Improve Generalization in the Low SNR Regime? [78.0226274470175]
我々は、勾配更新にラベルノイズを導入することで、ニューラルネットワーク(NN)のテスト性能が向上するかどうか検討する。
学習中のラベルノイズの付加は,学習過程を支配することを防止し,雑音の記憶を抑制することを実証する。
対照的に、標準GDで訓練されたNNは、同じ低SNR環境でのノイズに過度に適応する傾向にある。
論文 参考訳(メタデータ) (2025-10-20T13:28:13Z) - Neuro-MSBG: An End-to-End Neural Model for Hearing Loss Simulation [29.459592567418913]
Neuro-MSBGは、効率的な時間周波数モデリングのためのパーソナライズされたオーディオグラムエンコーダを備えた軽量なエンドツーエンドモデルである。
シミュレーションランタイムを46(1秒入力で0.970秒から0.021秒に短縮する。
論文 参考訳(メタデータ) (2025-07-21T08:58:31Z) - DenoMAE: A Multimodal Autoencoder for Denoising Modulation Signals [21.25974800554959]
デノマエ(DenoMAE)は、プレトレーニング中に変調信号を復調するための新しいフレームワークである。
ノイズを含む複数の入力モダリティを組み込んで、クロスモーダル学習を強化する。
自動変調分類タスクにおける最先端の精度を実現する。
論文 参考訳(メタデータ) (2025-01-20T15:23:16Z) - A Lightweight and Real-Time Binaural Speech Enhancement Model with Spatial Cues Preservation [19.384404014248762]
バイノーラル音声強調は、聴覚装置から受信される雑音信号の音質と可聴性を改善することを目的としている。
既存の手法は、複雑な音響シーンにおいてノイズ低減(NR)と空間的手がかり(SCP)の精度と高い計算要求の妥協に悩まされることが多い。
本稿では、低周波帯域をフィルタし、残りを保ち、NRに優れた学習ベース軽量複合畳み込みネットワーク(LBCCN)を提案する。
論文 参考訳(メタデータ) (2024-09-19T03:52:50Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Removing Noise from Extracellular Neural Recordings Using Fully
Convolutional Denoising Autoencoders [62.997667081978825]
ノイズの多いマルチチャネル入力からクリーンなニューロン活動信号を生成することを学習する完全畳み込みデノイングオートエンコーダを提案する。
シミュレーションデータを用いた実験結果から,提案手法はノイズ崩壊型ニューラルネットワークの品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-09-18T14:51:24Z) - Variational Autoencoder for Speech Enhancement with a Noise-Aware
Encoder [30.318947721658862]
本稿では,ノイズ対応エンコーダを用いて,学習段階での雑音情報を含むことを提案する。
提案するノイズ認識vaeは,モデルパラメータ数を増加させることなく,全体的な歪みの観点から標準vaeを上回っている。
論文 参考訳(メタデータ) (2021-02-17T11:40:42Z) - Improving noise robust automatic speech recognition with single-channel
time-domain enhancement network [100.1041336974175]
単一チャネルの時間領域分割手法により,ASRの性能が大幅に向上することを示す。
単一チャネル雑音の低減はASR性能を向上できることを示す。
論文 参考訳(メタデータ) (2020-03-09T09:36:31Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。