論文の概要: On the Role of Visual Cues in Audiovisual Speech Enhancement
- arxiv url: http://arxiv.org/abs/2004.12031v4
- Date: Thu, 25 Feb 2021 15:56:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 21:16:55.161286
- Title: On the Role of Visual Cues in Audiovisual Speech Enhancement
- Title(参考訳): 音声強調における視覚刺激の役割について
- Authors: Zakaria Aldeneh, Anushree Prasanna Kumar, Barry-John Theobald, Erik
Marchi, Sachin Kajarekar, Devang Naik, Ahmed Hussen Abdelaziz
- Abstract要約: ニューラルオーディオ視覚音声強調モデルでは、視覚的手がかりを用いてターゲット音声信号の品質を向上させる方法を示す。
この発見の副産物の1つは、学習された視覚埋め込みが他の視覚音声アプリケーションの機能として利用できることである。
- 参考スコア(独自算出の注目度): 21.108094726214784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an introspection of an audiovisual speech enhancement model. In
particular, we focus on interpreting how a neural audiovisual speech
enhancement model uses visual cues to improve the quality of the target speech
signal. We show that visual cues provide not only high-level information about
speech activity, i.e., speech/silence, but also fine-grained visual information
about the place of articulation. One byproduct of this finding is that the
learned visual embeddings can be used as features for other visual speech
applications. We demonstrate the effectiveness of the learned visual embeddings
for classifying visemes (the visual analogy to phonemes). Our results provide
insight into important aspects of audiovisual speech enhancement and
demonstrate how such models can be used for self-supervision tasks for visual
speech applications.
- Abstract(参考訳): 音声視覚音声強調モデルのイントロスペクションについて述べる。
特に、ニューラルオーディオ視覚音声強調モデルが視覚的手がかりを用いてターゲット音声信号の質を向上させる方法の解釈に焦点をあてる。
視覚手がかりは、音声活動、すなわち音声/サイレンスに関するハイレベルな情報だけでなく、構音の場所に関する詳細な視覚情報を提供する。
この発見の副産物の1つは、学習された視覚埋め込みが他の視覚音声アプリケーションの特徴として使用できることである。
ビセム(音素の視覚的類似)の分類に学習した視覚的埋め込みの有効性を実証する。
本研究は,視覚音声強調の重要な側面と,そのモデルが視覚音声アプリケーションにおける自己スーパービジョンタスクにどのように役立つかを示すものである。
関連論文リスト
- Speech2rtMRI: Speech-Guided Diffusion Model for Real-time MRI Video of the Vocal Tract during Speech [29.510756530126837]
音声中の人間の声道のMRIビデオにおいて,音声を視覚的に表現するデータ駆動方式を提案する。
先行知識に埋め込まれた大規模な事前学習音声モデルを用いて、視覚領域を一般化し、見当たらないデータを生成する。
論文 参考訳(メタデータ) (2024-09-23T20:19:24Z) - Robust Audiovisual Speech Recognition Models with Mixture-of-Experts [67.75334989582709]
EVAを導入し、オーディオVisual ASRのミックス・オブ・エクササイズを利用して、Wildのビデオに対してロバストな音声認識を行う。
まず、視覚情報を視覚トークンシーケンスにエンコードし、それらを軽量な投影により音声空間にマッピングする。
実験により,本モデルが3つのベンチマークで最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2024-09-19T00:08:28Z) - Efficient Training for Multilingual Visual Speech Recognition: Pre-training with Discretized Visual Speech Representation [55.15299351110525]
本稿では,1つの訓練されたモデルで異なる言語を認識可能な文レベル多言語視覚音声認識(VSR)について検討する。
視覚音声単位を用いた新しい学習手法を提案する。
我々は、従来の言語固有のVSRモデルに匹敵する性能を達成し、最先端の多言語VSRのパフォーマンスを新たに設定した。
論文 参考訳(メタデータ) (2024-01-18T08:46:02Z) - Cooperative Dual Attention for Audio-Visual Speech Enhancement with
Facial Cues [80.53407593586411]
頑健な音声音声強調(AVSE)のための唇領域を超えて顔の手がかりを活用することに注力する。
本稿では,音声関連情報を無視し,音声関連情報を顔の手がかりで捉え,AVSEの音声信号と動的に統合するDual Attention Cooperative Framework(DualAVSE)を提案する。
論文 参考訳(メタデータ) (2023-11-24T04:30:31Z) - Correlating Subword Articulation with Lip Shapes for Embedding Aware
Audio-Visual Speech Enhancement [94.0676772764248]
埋め込み認識音声強調(EASE)を改善するための視覚的埋め込み手法を提案する。
視覚のみのEASE(VEASE)のための事前訓練された電話機や調音位置認識器を用いて、まず唇フレームから視覚埋め込みを抽出する。
次に,マルチモーダルEASE(MEASE)における音声・視覚的特徴の相補性を利用して,雑音の多い音声・唇ビデオからの音声・視覚的埋め込みを情報交叉方式で抽出する。
論文 参考訳(メタデータ) (2020-09-21T01:26:19Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。