論文の概要: RT-LA-VocE: Real-Time Low-SNR Audio-Visual Speech Enhancement
- arxiv url: http://arxiv.org/abs/2407.07825v1
- Date: Wed, 10 Jul 2024 16:49:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 15:43:17.787523
- Title: RT-LA-VocE: Real-Time Low-SNR Audio-Visual Speech Enhancement
- Title(参考訳): RT-LA-VocE:リアルタイム低SNR音声強調
- Authors: Honglie Chen, Rodrigo Mira, Stavros Petridis, Maja Pantic,
- Abstract要約: LA-VocEのすべてのコンポーネントを再設計して40msの入力フレームで因果的リアルタイム推論を行うRT-LA-VocEを提案する。
提案アルゴリズムは,すべてのリアルタイムシナリオにおいて,最先端の処理結果が得られることを示す。
- 参考スコア(独自算出の注目度): 36.10772098876638
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we aim to generate clean speech frame by frame from a live video stream and a noisy audio stream without relying on future inputs. To this end, we propose RT-LA-VocE, which completely re-designs every component of LA-VocE, a state-of-the-art non-causal audio-visual speech enhancement model, to perform causal real-time inference with a 40ms input frame. We do so by devising new visual and audio encoders that rely solely on past frames, replacing the Transformer encoder with the Emformer, and designing a new causal neural vocoder C-HiFi-GAN. On the popular AVSpeech dataset, we show that our algorithm achieves state-of-the-art results in all real-time scenarios. More importantly, each component is carefully tuned to minimize the algorithm latency to the theoretical minimum (40ms) while maintaining a low end-to-end processing latency of 28.15ms per frame, enabling real-time frame-by-frame enhancement with minimal delay.
- Abstract(参考訳): 本稿では,将来的な入力に頼ることなく,ライブビデオストリームとノイズの多い音声ストリームから,クリーンな音声フレームを生成することを目的とする。
この目的のために,40msの入力フレームで因果的リアルタイム推論を行うために,最先端の非因果的音声・視覚音声強調モデルであるLA-VocEのすべてのコンポーネントを完全に再設計するRT-LA-VocEを提案する。
我々は、過去のフレームのみに依存する新しいビジュアルおよびオーディオエンコーダを考案し、トランスフォーマーエンコーダをEmformerに置き換え、新しい因果神経ボコーダC-HiFi-GANを設計する。
一般的なAVSpeechデータセットでは、我々のアルゴリズムがすべてのリアルタイムシナリオで最先端の結果を達成することを示す。
さらに重要なことは、各コンポーネントは、アルゴリズムのレイテンシを理論上の最小 (40ms) に抑えつつ、1フレームあたり28.15msの低エンドツーエンド処理レイテンシを保ち、フレーム毎のリアルタイム化を最小限の遅延で実現する。
関連論文リスト
- RTFS-Net: Recurrent Time-Frequency Modelling for Efficient Audio-Visual Speech Separation [18.93255531121519]
本稿では,時間周波数領域の音声-視覚音声分離手法を提案する。
RTFS-Netはそのアルゴリズムをショートタイムフーリエ変換によって得られる複雑な時間周波数ビンに適用する。
これは、時間周波数領域の音声・視覚的音声分離法として初めて、現代の時間領域の全てを上回ります。
論文 参考訳(メタデータ) (2023-09-29T12:38:00Z) - FastFit: Towards Real-Time Iterative Neural Vocoder by Replacing U-Net
Encoder With Multiple STFTs [1.8047694351309207]
FastFitは、U-Netエンコーダを複数の短時間フーリエ変換(STFT)に置き換える新しいニューラルボコーダアーキテクチャである。
我々は,FastFitが高音質を維持しつつ,ベースラインベースボコーダの生成速度を約2倍に向上することを示す。
論文 参考訳(メタデータ) (2023-05-18T09:05:17Z) - ReBotNet: Fast Real-time Video Enhancement [59.08038313427057]
ほとんどの復元ネットワークは遅く、高い計算ボトルネックがあり、リアルタイムビデオ拡張には使用できない。
本研究では,ライブビデオ通話やビデオストリームなどの実用的なユースケースをリアルタイムに拡張するための,効率的かつ高速なフレームワークを設計する。
提案手法を評価するために,実世界のビデオ通話とストリーミングのシナリオを示す2つの新しいデータセットをエミュレートし,ReBotNetがより少ない計算,メモリ要求の低減,より高速な推論時間で既存手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-03-23T17:58:05Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Neural Vocoder is All You Need for Speech Super-resolution [56.84715616516612]
音声スーパーレゾリューション(SR)は、高周波成分を生成して音声サンプリング率を高めるタスクである。
既存の音声SR法は、固定的なアップサンプリング比のような制約のある実験環境で訓練される。
本稿では,ニューラルボコーダを用いた音声超解法(NVSR)を提案する。
論文 参考訳(メタデータ) (2022-03-28T17:51:00Z) - A Streamwise GAN Vocoder for Wideband Speech Coding at Very Low Bit Rate [8.312162364318235]
本稿では、1.6kbit/sで符号化されたパラメータから広帯域音声波形を生成することができるGANボコーダを提案する。
提案モデルは,フレーム単位で動作可能なStyleMelGANボコーダの改良版である。
論文 参考訳(メタデータ) (2021-08-09T14:03:07Z) - Multi-rate attention architecture for fast streamable Text-to-speech
spectrum modeling [5.080331097831114]
高品質のテキストと音声(TTS)システムは、スペクトルフレームを生成するスペクトルモデルステージと実際のオーディオを生成するボコーダステージを備えた2段階のアーキテクチャを使用します。
これらのモデルは高品質な音声を生成することができるが、入力長に関してレイテンシーとリアルタイム因子(rtf)の両方にol$を負うことが多い。
本稿では,ストリーミング中にコンパクト表現を符号化することでレイテンシボトルネックを解消するマルチレートアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-04-01T18:15:30Z) - VoiceFilter-Lite: Streaming Targeted Voice Separation for On-Device
Speech Recognition [60.462770498366524]
ターゲットユーザからの音声信号のみを保存するためにデバイス上で実行される単一チャネルソース分離モデルであるVoiceFilter-Liteを導入する。
本研究では,そのようなモデルを8ビット整数モデルとして量子化し,リアルタイムに実行可能であることを示す。
論文 参考訳(メタデータ) (2020-09-09T14:26:56Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。