Fugu-MT 論文翻訳(概要): Raw Speech Enhancement with Deep State Space Modeling

論文の概要: Raw Speech Enhancement with Deep State Space Modeling

arxiv url: http://arxiv.org/abs/2409.03377v1
Date: Thu, 5 Sep 2024 09:28:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-06 21:10:19.033671
Title: Raw Speech Enhancement with Deep State Space Modeling
Title（参考訳）: 深部空間モデリングによる生音声強調
Authors: Yan Ru Pei, Ritik Shrivastava, FNU Sidharth,
Abstract要約: ATENNuateは、オンライン生音声の効率向上のために構成された、シンプルなディープな状態空間オートエンコーダである。我々は、VoiceBank + DEMANDとMicrosoft DNS1合成テストセットでaTENNuateをベンチマークする。ネットワークは、PSSQスコア、パラメータカウント、MAC、レイテンシの点で、従来のリアルタイムデノナイズモデルを上回っている。
参考スコア（独自算出の注目度）: 1.0650780147044159
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present aTENNuate, a simple deep state-space autoencoder configured for efficient online raw speech enhancement in an end-to-end fashion. The network's performance is primarily evaluated on raw speech denoising, with additional assessments on tasks such as super-resolution and de-quantization. We benchmark aTENNuate on the VoiceBank + DEMAND and the Microsoft DNS1 synthetic test sets. The network outperforms previous real-time denoising models in terms of PESQ score, parameter count, MACs, and latency. Even as a raw waveform processing model, the model maintains high fidelity to the clean signal with minimal audible artifacts. In addition, the model remains performant even when the noisy input is compressed down to 4000Hz and 4 bits, suggesting general speech enhancement capabilities in low-resource environments.
Abstract（参考訳）: ATENNuateは、エンドツーエンドで効率的なオンライン生音声強調を実現するための、シンプルな状態空間オートエンコーダである。ネットワークの性能は、主に生の音声認識で評価され、超分解能や非量子化などのタスクで評価される。我々は、VoiceBank + DEMANDとMicrosoft DNS1合成テストセットでaTENNuateをベンチマークする。ネットワークは、PSSQスコア、パラメータカウント、MAC、レイテンシの点で、従来のリアルタイムデノナイズモデルを上回っている。生波形処理モデルとしても、最小限の可聴アーチファクトを持つクリーン信号に対する忠実度を維持する。さらに、ノイズ入力が4000Hzと4ビットに圧縮された場合でもモデルが動作し、低リソース環境における一般的な音声強調能力を示唆している。

関連論文リスト

Alternating Approach-Putt Models for Multi-Stage Speech Enhancement [2.5016653845378722]
本稿では,音声強調モデルによって導入されたアーティファクトの軽減を目的とした後処理ニューラルネットワークを提案する。本研究では,音声強調モデルと提案したPuttモデルとの交互性により,音声品質が向上することが実証された。
論文参考訳（メタデータ） (2025-08-14T08:18:42Z)
CleanUMamba: A Compact Mamba Network for Speech Denoising using Channel Pruning [13.632515996508172]
CleanUMambaは、生の波形に直接適応する因果音声を識別するために設計された時間領域ニューラルネットワークアーキテクチャである。 CleanUMamba は PESQ スコア 2.42 と STOI の 95.1% を 442K パラメータと 468M MAC で達成している。
論文参考訳（メタデータ） (2024-10-14T20:18:03Z)
sVAD: A Robust, Low-Power, and Light-Weight Voice Activity Detection with Spiking Neural Networks [51.516451451719654]
スパイキングニューラルネットワーク(SNN)は生物学的に妥当で、電力効率が高いことが知られている。本稿では sVAD と呼ばれる新しい SNN ベースの音声活動検出モデルを提案する。 SincNetと1D畳み込みによる効果的な聴覚特徴表現を提供し、アテンション機構による雑音の堅牢性を向上させる。
論文参考訳（メタデータ） (2024-03-09T02:55:44Z)
AV2Wav: Diffusion-Based Re-synthesis from Continuous Self-supervised Features for Audio-Visual Speech Enhancement [18.193191170754744]
AV2Wavは再合成に基づく音声視覚音声強調手法である。我々は、韻律や話者情報を保持するために、離散表現よりも連続表現を用いる。提案手法は,自動計測と人間の聴取テストの両方の観点から,マスキングベースのベースラインよりも優れている。
論文参考訳（メタデータ） (2023-09-14T21:07:53Z)
Bring the Noise: Introducing Noise Robustness to Pretrained Automatic Speech Recognition [13.53738829631595]
本稿では,任意のエンコーダ・デコーダアーキテクチャに適用可能なデノナイズ機能を抽出する新しい手法を提案する。我々はノイズ音声データベース(NSD)で事前プロセッサを訓練し、ノイズ入力から雑音化されたスペクトルを再構成する。クリーンコーダは音声からノイズをフィルタリングすることができ、雑音条件下で下流モデルのワード誤り率(WER)を改善できることを示す。
論文参考訳（メタデータ） (2023-09-05T11:34:21Z)
EfficientSpeech: An On-Device Text to Speech Model [15.118059441365343]
State of the Art (SOTA) Neural Text to Speech (TTS)モデルでは、自然な音声合成音声を生成することができる。本研究では,ARM CPU上で音声をリアルタイムに合成するEfficientSpeechという,効率的なニューラルネットワークを提案する。
論文参考訳（メタデータ） (2023-05-23T10:28:41Z)
Self-Supervised Learning for Speech Enhancement through Synthesis [5.924928860260821]
そこで本研究では,ボコーダが雑音表現を受け入れ,クリーンな音声を直接合成する方法を学習する,デノナイズドボコーダ(DeVo)アプローチを提案する。 10msのレイテンシとパフォーマンスの低下を最小限に抑えながら,ストリーミングオーディオ上で動作可能な因果バージョンを実証した。
論文参考訳（メタデータ） (2022-11-04T16:06:56Z)
Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。 SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文参考訳（メタデータ） (2022-10-03T14:00:41Z)
FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech Synthesis [77.06890315052563]
我々は、低レイテンシで非拘束音声から高品質な音声を直接合成できる非自己回帰的エンドツーエンドモデルであるFastLTSを提案する。実験により,本モデルは3秒の入力シーケンスにおける現在の自己回帰モデルと比較して,音声生成の19.76倍の高速化を実現していることがわかった。
論文参考訳（メタデータ） (2022-07-08T10:10:39Z)
Neural Vocoder is All You Need for Speech Super-resolution [56.84715616516612]
音声スーパーレゾリューション(SR)は、高周波成分を生成して音声サンプリング率を高めるタスクである。既存の音声SR法は、固定的なアップサンプリング比のような制約のある実験環境で訓練される。本稿では,ニューラルボコーダを用いた音声超解法(NVSR)を提案する。
論文参考訳（メタデータ） (2022-03-28T17:51:00Z)
Variational Autoencoder for Speech Enhancement with a Noise-Aware Encoder [30.318947721658862]
本稿では,ノイズ対応エンコーダを用いて,学習段階での雑音情報を含むことを提案する。提案するノイズ認識vaeは,モデルパラメータ数を増加させることなく,全体的な歪みの観点から標準vaeを上回っている。
論文参考訳（メタデータ） (2021-02-17T11:40:42Z)
CITISEN: A Deep Learning-Based Speech Signal-Processing Mobile Application [63.2243126704342]
本研究では,CitisENと呼ばれる深層学習に基づく音声信号処理モバイルアプリケーションを提案する。 CitisENは、音声強調(SE)、モデル適応(MA)、背景雑音変換(BNC)の3つの機能を提供している。雑音の多い音声信号と比較すると、改良された音声信号の約6%と33%の改善が達成された。
論文参考訳（メタデータ） (2020-08-21T02:04:12Z)
Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文参考訳（メタデータ） (2020-06-23T09:19:13Z)
Deep Speaker Embeddings for Far-Field Speaker Recognition on Short Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文参考訳（メタデータ） (2020-02-14T13:34:33Z)
RawNet: Fast End-to-End Neural Vocoder [4.507860128918788]
RawNetは、話者依存および非依存音声合成のための自動エンコーダ構造に基づく、完全なエンドツーエンドのニューラルボコーダである。入力されたオーディオのより高い表現をキャプチャするコーダネットワークと、サンプルバイサンプル方式でオーディオを復元する自動回帰ボイダネットワークを含む。
論文参考訳（メタデータ） (2019-04-10T10:25:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。