Fugu-MT 論文翻訳(概要): Speech Denoising in the Waveform Domain with Self-Attention

論文の概要: Speech Denoising in the Waveform Domain with Self-Attention

arxiv url: http://arxiv.org/abs/2202.07790v1
Date: Tue, 15 Feb 2022 23:44:02 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-17 15:03:28.411605
Title: Speech Denoising in the Waveform Domain with Self-Attention
Title（参考訳）: 自己注意を伴う波形領域における発声
Authors: Zhifeng Kong, Wei Ping, Ambrish Dantrey, Bryan Catanzaro
Abstract要約: 生波形上での因果的発声モデルであるCleanUNetを提案する。提案モデルは,エンコーダ・デコーダアーキテクチャといくつかの自己アテンションブロックを組み合わせることで,ボトルネック表現を洗練させる。
参考スコア（独自算出の注目度）: 27.84933221217885
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we present CleanUNet, a causal speech denoising model on the raw waveform. The proposed model is based on an encoder-decoder architecture combined with several self-attention blocks to refine its bottleneck representations, which is crucial to obtain good results. The model is optimized through a set of losses defined over both waveform and multi-resolution spectrograms. The proposed method outperforms the state-of-the-art models in terms of denoised speech quality from various objective and subjective evaluation metrics.
Abstract（参考訳）: そこで本研究では,生波形の因果的発声モデルであるCleanUNetを提案する。提案モデルはエンコーダ・デコーダアーキテクチャと複数の自己アテンションブロックを組み合わせることでボトルネック表現を洗練し,良好な結果を得るのに不可欠である。このモデルは、波形と多分解能スペクトログラムの両方で定義された損失セットによって最適化される。提案手法は,様々な客観評価指標と主観評価指標から音質を推定し,最先端モデルよりも優れている。

関連論文リスト

It's Never Too Late: Noise Optimization for Collapse Recovery in Trained Diffusion Models [80.53672733210111]
基本モデルの忠実さを保ちつつモード崩壊を緩和する,単純な雑音最適化の目的を示す。実験により,騒音の最適化は生成品質と多様性の点で優れた結果をもたらすことが示された。
論文参考訳（メタデータ） (2025-12-31T19:47:49Z)
Alternating Approach-Putt Models for Multi-Stage Speech Enhancement [2.5016653845378722]
本稿では,音声強調モデルによって導入されたアーティファクトの軽減を目的とした後処理ニューラルネットワークを提案する。本研究では,音声強調モデルと提案したPuttモデルとの交互性により,音声品質が向上することが実証された。
論文参考訳（メタデータ） (2025-08-14T08:18:42Z)
Unified AI for Accurate Audio Anomaly Detection [0.0]
本稿では,高精度な音声異常検出のための統合AIフレームワークを提案する。高度なノイズ低減、特徴抽出、機械学習モデリング技術を統合する。このフレームワークはTORGOやLibriSpeechといったベンチマークデータセットで評価されている。
論文参考訳（メタデータ） (2025-05-20T16:56:08Z)
Understanding Representation Dynamics of Diffusion Models via Low-Dimensional Modeling [25.705179111920806]
この研究は、拡散モデルが高品質な表現を自己指導的に学習する上で優れている理由と時期に関する問題に対処する。我々は低次元データモデルと後続推定に基づく数学的枠組みを開発し、画像生成の最終段階に近い生成と表現品質の基本的なトレードオフを明らかにする。これらの知見に基づいて,ノイズレベルをまたいだ特徴を集約するアンサンブル法を提案し,ラベル雑音下でのクリーンな性能とロバスト性の両方を著しく改善する。
論文参考訳（メタデータ） (2025-02-09T01:58:28Z)
DiffAR: Denoising Diffusion Autoregressive Model for Raw Speech Waveform Generation [25.968115316199246]
本研究では,生音声波形を生成する拡散確率的エンドツーエンドモデルを提案する。我々のモデルは自己回帰的であり、重なり合うフレームを生成し、各フレームは以前に生成されたフレームの一部に条件付けされる。実験により,提案モデルが他の最先端のニューラル音声生成システムと比較して,高品質な音声を生成することが示された。
論文参考訳（メタデータ） (2023-10-02T17:42:22Z)
From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文参考訳（メタデータ） (2023-08-02T22:14:29Z)
Minimally-Supervised Speech Synthesis with Conditional Diffusion Model and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。実験の結果,提案手法はベースライン法よりも優れていた。
論文参考訳（メタデータ） (2023-07-28T11:20:23Z)
Period VITS: Variational Inference with Explicit Pitch Modeling for End-to-end Emotional Speech Synthesis [19.422230767803246]
我々は,明示的な周期性生成を組み込んだ新しいエンドツーエンドテキスト音声合成モデルである Period VITS を提案する。提案手法では,入力テキストからピッチや発声フラグなどの韻律的特徴を予測するフレームピッチ予測器を提案する。これらの特徴から、提案した周期性発生器は、波形デコーダがピッチを正確に再現できるサンプルレベルの正弦波源を生成する。
論文参考訳（メタデータ） (2022-10-28T07:52:30Z)
Self-attention fusion for audiovisual emotion recognition with incomplete data [103.70855797025689]
視覚的感情認識を応用したマルチモーダルデータ解析の問題点を考察する。本稿では、生データから学習可能なアーキテクチャを提案し、その3つの変種を異なるモダリティ融合機構で記述する。
論文参考訳（メタデータ） (2022-01-26T18:04:29Z)
A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文参考訳（メタデータ） (2021-07-25T19:23:18Z)
Learning Noise-Aware Encoder-Decoder from Noisy Labels by Alternating Back-Propagation for Saliency Detection [54.98042023365694]
本稿では,ノイズを考慮したエンコーダ・デコーダ・フレームワークを提案する。提案モデルはニューラルネットワークによってパラメータ化された2つのサブモデルから構成される。
論文参考訳（メタデータ） (2020-07-23T18:47:36Z)
Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文参考訳（メタデータ） (2020-06-23T09:19:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。