論文の概要: Correlating Subword Articulation with Lip Shapes for Embedding Aware
Audio-Visual Speech Enhancement
- arxiv url: http://arxiv.org/abs/2009.09561v1
- Date: Mon, 21 Sep 2020 01:26:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 05:53:24.869398
- Title: Correlating Subword Articulation with Lip Shapes for Embedding Aware
Audio-Visual Speech Enhancement
- Title(参考訳): 聴覚・視覚的音声強調のための唇形状と単語の関連付け
- Authors: Hang Chen, Jun Du, Yu Hu, Li-Rong Dai, Bao-Cai Yin, Chin-Hui Lee
- Abstract要約: 埋め込み認識音声強調(EASE)を改善するための視覚的埋め込み手法を提案する。
視覚のみのEASE(VEASE)のための事前訓練された電話機や調音位置認識器を用いて、まず唇フレームから視覚埋め込みを抽出する。
次に,マルチモーダルEASE(MEASE)における音声・視覚的特徴の相補性を利用して,雑音の多い音声・唇ビデオからの音声・視覚的埋め込みを情報交叉方式で抽出する。
- 参考スコア(独自算出の注目度): 94.0676772764248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a visual embedding approach to improving embedding
aware speech enhancement (EASE) by synchronizing visual lip frames at the phone
and place of articulation levels. We first extract visual embedding from lip
frames using a pre-trained phone or articulation place recognizer for
visual-only EASE (VEASE). Next, we extract audio-visual embedding from noisy
speech and lip videos in an information intersection manner, utilizing a
complementarity of audio and visual features for multi-modal EASE (MEASE).
Experiments on the TCD-TIMIT corpus corrupted by simulated additive noises show
that our proposed subword based VEASE approach is more effective than
conventional embedding at the word level. Moreover, visual embedding at the
articulation place level, leveraging upon a high correlation between place of
articulation and lip shapes, shows an even better performance than that at the
phone level. Finally the proposed MEASE framework, incorporating both audio and
visual embedding, yields significantly better speech quality and
intelligibility than those obtained with the best visual-only and audio-only
EASE systems.
- Abstract(参考訳): 本稿では,電話と構音レベルの位置で視覚の唇フレームを同期させることにより,認識音声強調(ease)を改善する視覚埋め込み手法を提案する。
まず,視覚のみのEASE (VEASE) のために,事前に訓練した電話機や調音位置認識器を用いて,唇フレームから視覚埋め込みを抽出する。
次に、マルチモーダルEASE(MEASE)における音声と視覚の特徴の相補性を利用して、雑音の多い音声と唇のビデオから音声と視覚の埋め込みを情報交叉方式で抽出する。
擬似付加雑音によるTCD-TIMITコーパスの劣化実験により,提案手法が従来の単語レベルでの埋め込みよりも有効であることが示された。
さらに, 構音位置の視覚的埋め込みは, 構音位置と唇形状との間に高い相関関係を生かし, より優れた性能を示す。
最後に、音声と視覚の両方を組み込んだMEASEフレームワークは、最高の視覚のみおよび音声のみのEASEシステムで得られたものよりも、音声品質と知性に優れる。
関連論文リスト
- Cooperative Dual Attention for Audio-Visual Speech Enhancement with
Facial Cues [80.53407593586411]
頑健な音声音声強調(AVSE)のための唇領域を超えて顔の手がかりを活用することに注力する。
本稿では,音声関連情報を無視し,音声関連情報を顔の手がかりで捉え,AVSEの音声信号と動的に統合するDual Attention Cooperative Framework(DualAVSE)を提案する。
論文 参考訳(メタデータ) (2023-11-24T04:30:31Z) - Audio-Visual Speaker Verification via Joint Cross-Attention [4.229744884478575]
モーダル間補間情報とモーダル内情報を完全に活用するためのモーダル間共同注意
モーダル内およびモーダル間関係を効率よく活用することで、話者検証のための音声・視覚融合の性能が著しく向上することを示してきた。
論文 参考訳(メタデータ) (2023-09-28T16:25:29Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - VCSE: Time-Domain Visual-Contextual Speaker Extraction Network [54.67547526785552]
本稿では,VCSEという2段階の時間領域視覚コンテキスト話者抽出ネットワークを提案する。
第1段階では、視覚的手がかりで対象音声を事前抽出し、基礎となる音声系列を推定する。
第2段階では、事前抽出されたターゲット音声を自己学習した文脈的手がかりで洗練する。
論文 参考訳(メタデータ) (2022-10-09T12:29:38Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - LiRA: Learning Visual Speech Representations from Audio through
Self-supervision [53.18768477520411]
セルフスーパービジョン(LiRA)による音声からの視覚的表現の学習を提案する。
具体的には、ResNet+Conformerモデルをトレーニングし、未学習の視覚音声から音響的特徴を予測する。
提案手法は,WildデータセットのLip Readingにおいて,他の自己教師的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-16T23:20:06Z) - On the Role of Visual Cues in Audiovisual Speech Enhancement [21.108094726214784]
ニューラルオーディオ視覚音声強調モデルでは、視覚的手がかりを用いてターゲット音声信号の品質を向上させる方法を示す。
この発見の副産物の1つは、学習された視覚埋め込みが他の視覚音声アプリケーションの機能として利用できることである。
論文 参考訳(メタデータ) (2020-04-25T01:00:03Z) - How to Teach DNNs to Pay Attention to the Visual Modality in Speech
Recognition [10.74796391075403]
本研究では、AV Alignの内部動作を調査し、オーディオ・視覚アライメントパターンを可視化する。
AV Alignは、一般に単調なパターンで、TD-TIMITのフレームレベルで、音声の音響的および視覚的表現を調整することを学習している。
本稿では,視覚的表現から唇関連行動単位を予測する正規化手法を提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。