論文の概要: Towards Robust Real-time Audio-Visual Speech Enhancement
- arxiv url: http://arxiv.org/abs/2112.09060v1
- Date: Thu, 16 Dec 2021 17:54:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 15:14:49.854679
- Title: Towards Robust Real-time Audio-Visual Speech Enhancement
- Title(参考訳): 頑健なリアルタイム音声強調に向けて
- Authors: Mandar Gogate, Kia Dashtipour, Amir Hussain
- Abstract要約: 本稿では低レイテンシ話者非依存型AVSEのための新しいフレームワークを提案する。
特に, AV SEにおける視覚的不完全性の現実的問題に対処するために, GAN(Generative Adversarial Network)を提案する。
我々は、より堅牢なSEを提供するために、GANから出力されるクリーンな視覚音声を考慮に入れた、ディープニューラルネットワークに基づくリアルタイムAVSEモデルを提案する。
- 参考スコア(独自算出の注目度): 8.183895606832623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The human brain contextually exploits heterogeneous sensory information to
efficiently perform cognitive tasks including vision and hearing. For example,
during the cocktail party situation, the human auditory cortex contextually
integrates audio-visual (AV) cues in order to better perceive speech. Recent
studies have shown that AV speech enhancement (SE) models can significantly
improve speech quality and intelligibility in very low signal to noise ratio
(SNR) environments as compared to audio-only SE models. However, despite
significant research in the area of AV SE, development of real-time processing
models with low latency remains a formidable technical challenge. In this
paper, we present a novel framework for low latency speaker-independent AV SE
that can generalise on a range of visual and acoustic noises. In particular, a
generative adversarial networks (GAN) is proposed to address the practical
issue of visual imperfections in AV SE. In addition, we propose a deep neural
network based real-time AV SE model that takes into account the cleaned visual
speech output from GAN to deliver more robust SE. The proposed framework is
evaluated on synthetic and real noisy AV corpora using objective speech quality
and intelligibility metrics and subjective listing tests. Comparative
simulation results show that our real time AV SE framework outperforms
state-of-the-art SE approaches, including recent DNN based SE models.
- Abstract(参考訳): 人間の脳は、異種感覚情報を利用して視覚や聴覚などの認知タスクを効率的に行う。
例えば、カクテルパーティーの状況では、人間の聴覚野は音声視覚(AV)の手がかりを文脈的に統合し、音声をより知覚する。
近年の研究では、音声のみのSEモデルと比較して、非常に低信号/雑音比(SNR)環境での音声品質と可聴性を大幅に向上することが示されている。
しかしながら、av seの分野における重要な研究にもかかわらず、低レイテンシのリアルタイム処理モデルの開発は、いまだに驚くべき技術的課題である。
本稿では,様々な視覚・音響ノイズを一般化できる低レイテンシな話者非依存型avseのための新しい枠組みを提案する。
特に, AV SEにおける視覚的不完全性の現実的問題に対処するために, GAN(Generative Adversarial Network)を提案する。
さらに、より堅牢なSEを提供するために、GANからのクリーンな視覚音声出力を考慮したディープニューラルネットワークに基づくリアルタイムAVSEモデルを提案する。
提案手法は,主観的音声品質と知性指標と主観的リスティングテストを用いて,合成および実雑音型AVコーパスを用いて評価する。
比較シミュレーションの結果、リアルタイムav seフレームワークは最新のdnnベースのseモデルを含む最先端のseアプローチよりも優れています。
関連論文リスト
- sVAD: A Robust, Low-Power, and Light-Weight Voice Activity Detection
with Spiking Neural Networks [51.516451451719654]
スパイキングニューラルネットワーク(SNN)は生物学的に妥当で、電力効率が高いことが知られている。
本稿では sVAD と呼ばれる新しい SNN ベースの音声活動検出モデルを提案する。
SincNetと1D畳み込みによる効果的な聴覚特徴表現を提供し、アテンション機構による雑音の堅牢性を向上させる。
論文 参考訳(メタデータ) (2024-03-09T02:55:44Z) - AV2Wav: Diffusion-Based Re-synthesis from Continuous Self-supervised Features for Audio-Visual Speech Enhancement [18.193191170754744]
AV2Wavは再合成に基づく音声視覚音声強調手法である。
我々は、韻律や話者情報を保持するために、離散表現よりも連続表現を用いる。
提案手法は,自動計測と人間の聴取テストの両方の観点から,マスキングベースのベースラインよりも優れている。
論文 参考訳(メタデータ) (2023-09-14T21:07:53Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition [66.94463981654216]
話者適応型視覚音声認識(VSR)のためのディープニューラルネットワーク(DNN)の即時チューニング手法を提案する。
我々は、事前訓練されたモデルパラメータを変更する代わりに、ターゲット話者の適応データを微調整する。
提案手法の有効性を単語レベルのVSRデータベースと文レベルのVSRデータベースで評価した。
論文 参考訳(メタデータ) (2023-02-16T06:01:31Z) - Self-Supervised Learning for Speech Enhancement through Synthesis [5.924928860260821]
そこで本研究では,ボコーダが雑音表現を受け入れ,クリーンな音声を直接合成する方法を学習する,デノナイズドボコーダ(DeVo)アプローチを提案する。
10msのレイテンシとパフォーマンスの低下を最小限に抑えながら,ストリーミングオーディオ上で動作可能な因果バージョンを実証した。
論文 参考訳(メタデータ) (2022-11-04T16:06:56Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Towards Intelligibility-Oriented Audio-Visual Speech Enhancement [8.19144665585397]
本稿では,STOI(Modified short-time objective intelligibility)メトリックをトレーニングコスト関数として用いた完全畳み込み型AVSEモデルを提案する。
提案するI-O AV SEフレームワークは,従来の距離に基づく損失関数を訓練したオーディオ専用(AO)およびAVモデルより優れている。
論文 参考訳(メタデータ) (2021-11-18T11:47:37Z) - Deep Learning-based Non-Intrusive Multi-Objective Speech Assessment
Model with Cross-Domain Features [30.57631206882462]
MOSA-Netは、テスト音声信号を入力として、音声品質、知性、歪み評価スコアを推定するように設計されている。
音声品質(PESQ)、短時間客観性(STOI)、音声歪み指数(BLS)のスコアを、雑音および拡張音声発話の両方で正確に予測できることを,MOSA-Netが示す。
論文 参考訳(メタデータ) (2021-11-03T17:30:43Z) - How to Teach DNNs to Pay Attention to the Visual Modality in Speech
Recognition [10.74796391075403]
本研究では、AV Alignの内部動作を調査し、オーディオ・視覚アライメントパターンを可視化する。
AV Alignは、一般に単調なパターンで、TD-TIMITのフレームレベルで、音声の音響的および視覚的表現を調整することを学習している。
本稿では,視覚的表現から唇関連行動単位を予測する正規化手法を提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:19Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。