論文の概要: Improved Lite Audio-Visual Speech Enhancement
- arxiv url: http://arxiv.org/abs/2008.13222v3
- Date: Mon, 31 Jan 2022 19:57:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-23 12:35:40.290058
- Title: Improved Lite Audio-Visual Speech Enhancement
- Title(参考訳): 改良されたlite音声-視覚音声強調
- Authors: Shang-Yi Chuang, Hsin-Min Wang and Yu Tsao
- Abstract要約: 本稿では,自動車走行シナリオに対するLAVSEアルゴリズムを提案する。
本研究では,AVSEシステムの実装においてしばしば遭遇する3つの実践的問題に対処する能力を向上させるために,LAVSEを拡張した。
台湾・マンダリン語音声におけるiLAVSEをビデオデータセットを用いて評価した。
- 参考スコア(独自算出の注目度): 27.53117725152492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Numerous studies have investigated the effectiveness of audio-visual
multimodal learning for speech enhancement (AVSE) tasks, seeking a solution
that uses visual data as auxiliary and complementary input to reduce the noise
of noisy speech signals. Recently, we proposed a lite audio-visual speech
enhancement (LAVSE) algorithm for a car-driving scenario. Compared to
conventional AVSE systems, LAVSE requires less online computation and to some
extent solves the user privacy problem on facial data. In this study, we extend
LAVSE to improve its ability to address three practical issues often
encountered in implementing AVSE systems, namely, the additional cost of
processing visual data, audio-visual asynchronization, and low-quality visual
data. The proposed system is termed improved LAVSE (iLAVSE), which uses a
convolutional recurrent neural network architecture as the core AVSE model. We
evaluate iLAVSE on the Taiwan Mandarin speech with video dataset. Experimental
results confirm that compared to conventional AVSE systems, iLAVSE can
effectively overcome the aforementioned three practical issues and can improve
enhancement performance. The results also confirm that iLAVSE is suitable for
real-world scenarios, where high-quality audio-visual sensors may not always be
available.
- Abstract(参考訳): 音声強調(avse)タスクに対する音声-視覚マルチモーダル学習の有効性について多くの研究が行われており、視覚データを補助入力として使用し、雑音の少ない音声信号のノイズを低減するソリューションを模索している。
近年,自動車走行シナリオのための音声・視覚音声強調アルゴリズム (LAVSE) を提案する。
従来のAVSEシステムと比較して、LAVSEはオンラインでの計算を少なくし、顔データにおけるユーザのプライバシー問題をある程度解決する。
本研究では,AVSEシステムの実装においてしばしば発生する3つの実践的問題,すなわち視覚データ処理コスト,オーディオ-視覚的同調化,低品質な視覚データに対処する能力を向上させるために,LAVSEを拡張した。
提案システムは,畳み込みリカレントニューラルネットワークアーキテクチャをコアAVSEモデルとして用いた改良型AVSE (iLAVSE) と呼ばれる。
台湾・マンダリン語音声におけるiLAVSEをビデオデータセットを用いて評価した。
実験の結果,従来のAVSEシステムと比較して,iLAVSEは上記の3つの実用課題を効果的に克服し,性能向上を図ることができることがわかった。
また、iLAVSEは高品質のオーディオ視覚センサーが常に利用できるわけではない現実のシナリオに適していることも確認した。
関連論文リスト
- Robust Audiovisual Speech Recognition Models with Mixture-of-Experts [67.75334989582709]
EVAを導入し、オーディオVisual ASRのミックス・オブ・エクササイズを利用して、Wildのビデオに対してロバストな音声認識を行う。
まず、視覚情報を視覚トークンシーケンスにエンコードし、それらを軽量な投影により音声空間にマッピングする。
実験により,本モデルが3つのベンチマークで最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2024-09-19T00:08:28Z) - Large Language Models Are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法の評価を行い,WERが0.81%,0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - A study on joint modeling and data augmentation of multi-modalities for
audio-visual scene classification [64.59834310846516]
音声視覚シーン分類(AVSC)のためのシステム性能を改善するために,共同モデリングとデータ拡張という2つの手法を提案する。
最終システムはDCASE 2021 Task 1bに送信された全AVSCシステムの中で94.2%の精度を達成できる。
論文 参考訳(メタデータ) (2022-03-07T07:29:55Z) - Towards Intelligibility-Oriented Audio-Visual Speech Enhancement [8.19144665585397]
本稿では,STOI(Modified short-time objective intelligibility)メトリックをトレーニングコスト関数として用いた完全畳み込み型AVSEモデルを提案する。
提案するI-O AV SEフレームワークは,従来の距離に基づく損失関数を訓練したオーディオ専用(AO)およびAVモデルより優れている。
論文 参考訳(メタデータ) (2021-11-18T11:47:37Z) - An Empirical Study of Visual Features for DNN based Audio-Visual Speech
Enhancement in Multi-talker Environments [5.28539620288341]
AVSE法は音声と視覚の両方を用いて音声強調を行う。
我々の知る限りでは、この特定のタスクにどの視覚的特徴が最適であるかを調査する論文は発表されていない。
本研究は, 組込み型機能の全体的な性能が向上しているにもかかわらず, 計算集約的な事前処理により, 低資源システムでは利用が困難であることを示す。
論文 参考訳(メタデータ) (2020-11-09T11:48:14Z) - Lite Audio-Visual Speech Enhancement [25.91075607254046]
オーディオ・ヴィジュアルSE(AVSE)システムを実装する際には2つの問題が発生する可能性がある。
視覚入力を組み込むために追加の処理コストがかかる。
顔や唇の画像の使用はプライバシーの問題を引き起こす可能性がある。
これらの問題に対処するLite AVSE (LAVSE) システムを提案する。
論文 参考訳(メタデータ) (2020-05-24T15:09:42Z) - How to Teach DNNs to Pay Attention to the Visual Modality in Speech
Recognition [10.74796391075403]
本研究では、AV Alignの内部動作を調査し、オーディオ・視覚アライメントパターンを可視化する。
AV Alignは、一般に単調なパターンで、TD-TIMITのフレームレベルで、音声の音響的および視覚的表現を調整することを学習している。
本稿では,視覚的表現から唇関連行動単位を予測する正規化手法を提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。