論文の概要: Efficient Monaural Speech Enhancement using Spectrum Attention Fusion
- arxiv url: http://arxiv.org/abs/2308.02263v1
- Date: Fri, 4 Aug 2023 11:39:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-07 13:12:49.924645
- Title: Efficient Monaural Speech Enhancement using Spectrum Attention Fusion
- Title(参考訳): スペクトル注意融合を用いた効率的なモナラ音声強調
- Authors: Jinyu Long and Jetic G\=u and Binhao Bai and Zhibo Yang and Ping Wei
and Junli Li
- Abstract要約: 本稿では,自己意図の表現性を保ちながら,モデルの複雑さを著しく低減する音声強調モデルの改良について述べる。
音声変換器において,複数の自己認識層を置き換えるための畳み込みモジュールを構築し,より効率的にスペクトル特徴を融合させる。
提案モデルでは,SOTAモデルに対して同等あるいはより良い結果が得られるが,Voice Bank + DEMANDデータセット上では,パラメータが0.58Mよりもはるかに小さい。
- 参考スコア(独自算出の注目度): 15.8309037583936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech enhancement is a demanding task in automated speech processing
pipelines, focusing on separating clean speech from noisy channels. Transformer
based models have recently bested RNN and CNN models in speech enhancement,
however at the same time they are much more computationally expensive and
require much more high quality training data, which is always hard to come by.
In this paper, we present an improvement for speech enhancement models that
maintains the expressiveness of self-attention while significantly reducing
model complexity, which we have termed Spectrum Attention Fusion. We carefully
construct a convolutional module to replace several self-attention layers in a
speech Transformer, allowing the model to more efficiently fuse spectral
features. Our proposed model is able to achieve comparable or better results
against SOTA models but with significantly smaller parameters (0.58M) on the
Voice Bank + DEMAND dataset.
- Abstract(参考訳): 音声強調は、ノイズの多いチャネルからクリーンな音声を分離することに焦点を当て、自動音声処理パイプラインにおいて要求されるタスクである。
トランスフォーマーベースのモデルは、最近、音声強調においてRNNとCNNモデルに勝っているが、それと同時に計算コストがはるかに高く、高品質なトレーニングデータを必要とする。
本稿では,スペクトル注意融合(Spectrum Attention Fusion)と呼ばれるモデル複雑性を著しく低減しつつ,自己注意の表現性を維持できる音声強調モデルの改良について述べる。
音声変換器において,複数の自己注意層を置き換えるための畳み込みモジュールを慎重に構築し,より効率的にスペクトル特徴を融合させる。
提案手法は,音声バンク+デマンドデータセットのパラメータ(0.58m)が大幅に小さい場合,somaモデルと同等かそれ以上の結果が得られる。
関連論文リスト
- TIGER: Time-frequency Interleaved Gain Extraction and Reconstruction for Efficient Speech Separation [19.126525226518975]
パラメータと計算コストを大幅に削減した音声分離モデルを提案する。
TIGERは事前の知識を活用して周波数帯域を分割し、周波数情報を圧縮する。
我々は、TIGERが、最先端(SOTA)モデルTF-GridNetを上回る性能を達成することを示す。
論文 参考訳(メタデータ) (2024-10-02T12:21:06Z) - Non-autoregressive real-time Accent Conversion model with voice cloning [0.0]
我々は音声クローンを用いたリアルタイムアクセント変換のための非自己回帰モデルを開発した。
このモデルは入力L2音声に基づいて最小レイテンシでネイティブなL1音声を生成する。
このモデルは、話者の声の音色、性別、アクセントをリアルタイムで保存し、クローンし、変更することができる。
論文 参考訳(メタデータ) (2024-05-21T19:07:26Z) - SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation [56.913182262166316]
CoIG(Chain-of-Information Generation)は、大規模音声生成において意味情報と知覚情報を分離する手法である。
SpeechGPT-Genはセマンティックおよび知覚情報モデリングにおいて効率的である。
ゼロショット音声変換、ゼロショット音声変換、音声音声対話に優れる。
論文 参考訳(メタデータ) (2024-01-24T15:25:01Z) - Guided Speech Enhancement Network [17.27704800294671]
マルチマイクロホン音声強調問題は、空間フィルタリングを提供するビームフォーマと単一チャンネル音声強調モデルという2つの分離されたステップに分解されることが多い。
MLモデルの入力として生マイクとビームフォーマの出力を併用した音声強調ソリューションを提案する。
我々は、MLモジュールをGSENetと命名し、ガイド付き音声強調ネットワークの略とした。
論文 参考訳(メタデータ) (2023-03-13T21:48:20Z) - CHAPTER: Exploiting Convolutional Neural Network Adapters for
Self-supervised Speech Models [62.60723685118747]
自己教師付き学習(SSL)は、ラベルのないデータから表現を学習するための強力な技術である。
特徴抽出器にCNNアダプタを適用し,SSL音声モデルに特化して設計された効率的なチューニング手法を提案する。
特徴抽出器にCNNを追加することで、感情や話者のタスクへの適応が促進されることを実証的に見出した。
論文 参考訳(メタデータ) (2022-12-01T08:50:12Z) - Exploring Self-Attention Mechanisms for Speech Separation [11.210834842425955]
本稿では,音声分離のための奥行き変換器について検討する。
SepFormerに関するこれまでの知見は、より難しいノイズとノイズの残響データセットの結果を提供することで拡張します。
最後に,音声分離において,Linformers,Lonformers,ReFormersなどの効率的な自己認識機構の利用を初めて検討する。
論文 参考訳(メタデータ) (2022-02-06T23:13:27Z) - Residual Adapters for Parameter-Efficient ASR Adaptation to Atypical and
Accented Speech [5.960279280033886]
モデルファインタニングと比較して,比較的少数の余分なパラメータをエンコーダ層に追加することにより,類似の適応ゲインが得られることを示す。
我々はこれを2つの言語適応タスク(非典型的およびアクセント付き音声)と2つの最先端のASRアーキテクチャで実証する。
論文 参考訳(メタデータ) (2021-09-14T20:04:47Z) - Efficient End-to-End Speech Recognition Using Performers in Conformers [74.71219757585841]
モデルサイズに加えて,モデルアーキテクチャの複雑さを低減することを提案する。
提案モデルにより,1000万のパラメータと線形複雑度を持つLibriSpeechコーパス上での競合性能が得られた。
論文 参考訳(メタデータ) (2020-11-09T05:22:57Z) - Exploring Deep Hybrid Tensor-to-Vector Network Architectures for
Regression Based Speech Enhancement [53.47564132861866]
我々は、CNN-TTというハイブリッドアーキテクチャが、モデルパラメータを小さくして高品質な性能を維持することができることを見出した。
CNN-TTは、音声品質を改善するために、特徴抽出のために下部に複数の畳み込み層で構成されている。
論文 参考訳(メタデータ) (2020-07-25T22:21:05Z) - Conformer: Convolution-augmented Transformer for Speech Recognition [60.119604551507805]
最近、トランスフォーマーと畳み込みニューラルネットワーク(CNN)に基づくモデルが、自動音声認識(ASR)の有望な結果を示している。
音声認識のための畳み込み拡張変換器,Conformerを提案する。
広く使われているLibriSpeechベンチマークでは、言語モデルを用いずにWERが2.1%/4.3%、テスト/テストの外部言語モデルで1.9%/3.9%を達成した。
論文 参考訳(メタデータ) (2020-05-16T20:56:25Z) - A Streaming On-Device End-to-End Model Surpassing Server-Side
Conventional Model Quality and Latency [88.08721721440429]
本稿では,第1パスリカレントニューラルネットワークトランスデューサ(RNN-T)モデルと第2パスリステン,Attend,Spell(LAS)リスコラを開発する。
RNN-T+LASは従来のモデルに比べてWERとレイテンシのトレードオフが優れていることがわかった。
論文 参考訳(メタデータ) (2020-03-28T05:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。