論文の概要: Guided Speech Enhancement Network
- arxiv url: http://arxiv.org/abs/2303.07486v1
- Date: Mon, 13 Mar 2023 21:48:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 17:23:50.815441
- Title: Guided Speech Enhancement Network
- Title(参考訳): 誘導音声強調ネットワーク
- Authors: Yang Yang, Shao-Fu Shih, Hakan Erdogan, Jamie Menjay Lin, Chehung Lee,
Yunpeng Li, George Sung, Matthias Grundmann
- Abstract要約: マルチマイクロホン音声強調問題は、空間フィルタリングを提供するビームフォーマと単一チャンネル音声強調モデルという2つの分離されたステップに分解されることが多い。
MLモデルの入力として生マイクとビームフォーマの出力を併用した音声強調ソリューションを提案する。
我々は、MLモジュールをGSENetと命名し、ガイド付き音声強調ネットワークの略とした。
- 参考スコア(独自算出の注目度): 17.27704800294671
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High quality speech capture has been widely studied for both voice
communication and human computer interface reasons. To improve the capture
performance, we can often find multi-microphone speech enhancement techniques
deployed on various devices. Multi-microphone speech enhancement problem is
often decomposed into two decoupled steps: a beamformer that provides spatial
filtering and a single-channel speech enhancement model that cleans up the
beamformer output. In this work, we propose a speech enhancement solution that
takes both the raw microphone and beamformer outputs as the input for an ML
model. We devise a simple yet effective training scheme that allows the model
to learn from the cues of the beamformer by contrasting the two inputs and
greatly boost its capability in spatial rejection, while conducting the general
tasks of denoising and dereverberation. The proposed solution takes advantage
of classical spatial filtering algorithms instead of competing with them. By
design, the beamformer module then could be selected separately and does not
require a large amount of data to be optimized for a given form factor, and the
network model can be considered as a standalone module which is highly
transferable independently from the microphone array. We name the ML module in
our solution as GSENet, short for Guided Speech Enhancement Network. We
demonstrate its effectiveness on real world data collected on multi-microphone
devices in terms of the suppression of noise and interfering speech.
- Abstract(参考訳): 高品質な音声キャプチャは、音声通信とヒューマンコンピュータインタフェースの両方の理由から広く研究されている。
キャプチャ性能を向上させるために、様々なデバイスに展開するマルチマイクロホン音声強調技術を見つけることができる。
マルチマイクロホン音声強調問題は、空間フィルタリングを提供するビームフォーマとビームフォーマ出力を浄化する単一チャンネル音声強調モデルという2つの分離されたステップに分解されることが多い。
本研究では,MLモデルの入力として生マイクとビームフォーマの出力を併用した音声強調ソリューションを提案する。
2つの入力を対比してモデルがビームフォーマーの手がかりから学ぶことができ、空間的拒絶の能力を大きく向上させ、ノイズ除去と非残響の一般的なタスクを遂行できる、単純かつ効果的なトレーニングスキームを考案する。
提案手法は,従来の空間フィルタリングアルゴリズムと競合する代わりに利用することができる。
設計により、beamformerモジュールは別々に選択することができ、所定のフォームファクタのために最適化される大量のデータを必要としない。
我々は、MLモジュールをGSENetと命名し、ガイド付き音声強調ネットワークの略とした。
マルチマイクロフォンデバイス上で収集した実世界のデータに対して,雑音の抑制や音声の干渉による効果を示す。
関連論文リスト
- FINALLY: fast and universal speech enhancement with studio-like quality [7.207284147264852]
本稿では,様々な歪みを含む実世界の録音における音声強調の課題に対処する。
本研究では, 対人訓練の安定性を高めるために, 知覚喪失のための様々な特徴抽出器について検討した。
我々は、WavLMに基づく知覚損失をMS-STFT逆行訓練パイプラインに統合し、音声強調モデルの効果的で安定した訓練手順を作成する。
論文 参考訳(メタデータ) (2024-10-08T11:16:03Z) - DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding [51.32965203977845]
本稿では,連続的な音声エンコーダ出力の代わりに離散音声単位(DSU)を用いることを提案する。
提案モデルでは, 未知領域からの音声入力に対する頑健な性能と, 音声質問応答における指示追従能力を示す。
この結果から,ASRタスクとデータセットは,音声質問応答タスクの指導訓練に必須ではないことが示唆された。
論文 参考訳(メタデータ) (2024-06-13T17:28:13Z) - Fill in the Gap! Combining Self-supervised Representation Learning with Neural Audio Synthesis for Speech Inpainting [14.402357651227003]
本稿では,音声信号の欠落部分を周囲の文脈から再構成する音声認識用SSLモデルについて検討する。
その目的のために、SSLエンコーダ、すなわち HuBERT とニューラルヴォコーダ、すなわち HiFiGAN を組み合わせてデコーダの役割を演じる。
論文 参考訳(メタデータ) (2024-05-30T14:41:39Z) - uSee: Unified Speech Enhancement and Editing with Conditional Diffusion
Models [57.71199494492223]
本稿では,条件付き拡散モデルを用いた統一音声強調編集(uSee)モデルを提案する。
実験の結果,提案したuSeeモデルは,他の生成的音声強調モデルと比較して,発声および発声の双方において優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-02T04:36:39Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Efficient Monaural Speech Enhancement using Spectrum Attention Fusion [15.8309037583936]
本稿では,自己意図の表現性を保ちながら,モデルの複雑さを著しく低減する音声強調モデルの改良について述べる。
音声変換器において,複数の自己認識層を置き換えるための畳み込みモジュールを構築し,より効率的にスペクトル特徴を融合させる。
提案モデルでは,SOTAモデルに対して同等あるいはより良い結果が得られるが,Voice Bank + DEMANDデータセット上では,パラメータが0.58Mよりもはるかに小さい。
論文 参考訳(メタデータ) (2023-08-04T11:39:29Z) - Multi-Dimensional and Multi-Scale Modeling for Speech Separation
Optimized by Discriminative Learning [9.84949849886926]
音声分離のためのSE変換器とISCIT(Intra-SE-Conformer and Inter-Transformer)
新しいネットワークSE-Conformerは、複数の次元とスケールでオーディオシーケンスをモデル化できる。
論文 参考訳(メタデータ) (2023-03-07T08:53:20Z) - Unifying Speech Enhancement and Separation with Gradient Modulation for
End-to-End Noise-Robust Speech Separation [23.758202121043805]
本稿では,音声の強調と分離を勾配変調で統一し,ノイズ・ロバスト性を改善する新しいネットワークを提案する。
実験結果から,大規模Libri2Mix-およびLibri3Mix-noisyデータセットの最先端化が得られた。
論文 参考訳(メタデータ) (2023-02-22T03:54:50Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - VoiceFilter-Lite: Streaming Targeted Voice Separation for On-Device
Speech Recognition [60.462770498366524]
ターゲットユーザからの音声信号のみを保存するためにデバイス上で実行される単一チャネルソース分離モデルであるVoiceFilter-Liteを導入する。
本研究では,そのようなモデルを8ビット整数モデルとして量子化し,リアルタイムに実行可能であることを示す。
論文 参考訳(メタデータ) (2020-09-09T14:26:56Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。