論文の概要: End-to-End Multi-Person Audio/Visual Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2205.05586v1
- Date: Wed, 11 May 2022 15:57:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 18:07:40.086986
- Title: End-to-End Multi-Person Audio/Visual Automatic Speech Recognition
- Title(参考訳): マルチパーソン音声/視覚自動音声認識
- Authors: Otavio Braga, Takaki Makino, Olivier Siohan, Hank Liao
- Abstract要約: ビデオ内の複数の顔トラックを処理できる完全微分可能なA/V ASRモデルを提案する。
YouTubeビデオの30k時間以上でトレーニングされたA/Vシステムによる実験では、提案手法が適切な顔のトラックを自動的に選択できることが示されている。
- 参考スコア(独自算出の注目度): 10.170354459144454
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Traditionally, audio-visual automatic speech recognition has been studied
under the assumption that the speaking face on the visual signal is the face
matching the audio. However, in a more realistic setting, when multiple faces
are potentially on screen one needs to decide which face to feed to the A/V ASR
system. The present work takes the recent progress of A/V ASR one step further
and considers the scenario where multiple people are simultaneously on screen
(multi-person A/V ASR). We propose a fully differentiable A/V ASR model that is
able to handle multiple face tracks in a video. Instead of relying on two
separate models for speaker face selection and audio-visual ASR on a single
face track, we introduce an attention layer to the ASR encoder that is able to
soft-select the appropriate face video track. Experiments carried out on an A/V
system trained on over 30k hours of YouTube videos illustrate that the proposed
approach can automatically select the proper face tracks with minor WER
degradation compared to an oracle selection of the speaking face while still
showing benefits of employing the visual signal instead of the audio alone.
- Abstract(参考訳): 従来,視覚信号の発話面が音声と一致する顔であるという仮定のもと,音声・視覚自動音声認識が研究されてきた。
しかし、より現実的な環境では、複数の顔がスクリーン上にある可能性がある場合、A/V ASRシステムに供給する顔を決定する必要がある。
本研究は、A/V ASRの最近の進歩を一歩進め、複数の人が同時にスクリーン上にいるシナリオ(複数人A/V ASR)を考える。
ビデオ内の複数の顔トラックを処理できる完全微分可能なA/V ASRモデルを提案する。
話者の顔選択のための2つの異なるモデルと1つの顔トラック上のオーディオ・ビジュアルasrに頼る代わりに、適切な顔ビデオトラックをソフト選択できるasrエンコーダに注意層を導入する。
YouTubeビデオの30k時間以上でトレーニングされたA/Vシステムで行った実験では、音声のみの代わりに視覚信号を使用することのメリットを示しながら、音声のオラクル選択と比較して、WER劣化の少ない適切な顔トラックを自動選択できることが示されている。
関連論文リスト
- Cooperative Dual Attention for Audio-Visual Speech Enhancement with
Facial Cues [80.53407593586411]
頑健な音声音声強調(AVSE)のための唇領域を超えて顔の手がかりを活用することに注力する。
本稿では,音声関連情報を無視し,音声関連情報を顔の手がかりで捉え,AVSEの音声信号と動的に統合するDual Attention Cooperative Framework(DualAVSE)を提案する。
論文 参考訳(メタデータ) (2023-11-24T04:30:31Z) - AVATAR: Unconstrained Audiovisual Speech Recognition [75.17253531162608]
本稿では,ASR TrAnsformeR (AVATAR) を用いて,スペクトルとフルフレームRGBからエンドツーエンドにトレーニングした新しいシーケンス・ツー・シーケンスASR TrAnsformeRを提案する。
本稿では,ハウ2 AV-ASR ベンチマークにおける視覚的モダリティの寄与を,特にシミュレートノイズの存在下で実証する。
また、我々はAV-ASRのための新しい実世界テストベッドVisSpeechを作成し、挑戦的な音声条件下での視覚的モダリティの寄与を実証した。
論文 参考訳(メタデータ) (2022-06-15T17:33:19Z) - A Closer Look at Audio-Visual Multi-Person Speech Recognition and Active
Speaker Selection [9.914246432182873]
様々な雑音条件下では,エンド・ツー・エンドのモデルが,少なくとも大きな2段階のシステムを動作させることを示す。
トレーニングデータとして5万時間以上の公開YouTubeビデオを収録した実験では、アクティブな話者選択タスクにおいて、最初に注目層の精度を評価する。
論文 参考訳(メタデータ) (2022-05-11T15:55:31Z) - Best of Both Worlds: Multi-task Audio-Visual Automatic Speech
Recognition and Active Speaker Detection [9.914246432182873]
ノイズの多い状況下では、自動音声認識は、話者の顔のビデオから得られる視覚信号を追加することで恩恵を受けることができる。
アクティブな話者検出は、可視的な顔のどれがオーディオに対応しているかを各時点に選択することを含む。
近年の研究では、話者の顔の競合するビデオトラックに注意機構を組み込むことで、両問題を同時に解決できることが示されている。
この研究は、マルチタスク損失と共同で訓練できる単一のモデルを示すことによって、アクティブな話者検出精度のこのギャップを埋める。
論文 参考訳(メタデータ) (2022-05-10T23:03:19Z) - One-shot Talking Face Generation from Single-speaker Audio-Visual
Correlation Learning [20.51814865676907]
特定の話者から一貫した音声スタイルを学ぶ方がずっと簡単で、それが本物の口の動きにつながる。
本研究では,特定の話者からの音声と視覚の動きの一致した相関関係を探索し,一対一の会話顔生成フレームワークを提案する。
学習した一貫した話し方のおかげで,本手法は真正な口の形状と鮮明な動きを生成する。
論文 参考訳(メタデータ) (2021-12-06T02:53:51Z) - Learning to Predict Salient Faces: A Novel Visual-Audio Saliency Model [96.24038430433885]
本稿では,視覚,音声,顔の3つの分枝からなるマルチモーダルビデオサリエンシーモデルを提案する。
実験結果から,提案手法は,11の最先端サリエンシ予測作業より優れていた。
論文 参考訳(メタデータ) (2021-03-29T09:09:39Z) - VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency [111.55430893354769]
ビデオでは、同時の背景音や他の人間のスピーカーにもかかわらず、顔に関連するスピーチを抽出することを目的としています。
本手法は,非ラベル映像から音声-視覚音声分離とクロスモーダル話者埋め込みを共同で学習する。
音声-視覚音声分離と強化のための5つのベンチマークデータセットで最新の結果が得られます。
論文 参考訳(メタデータ) (2021-01-08T18:25:24Z) - Robust One Shot Audio to Video Generation [10.957973845883162]
OneShotA2Vは、音声信号と人の単一の見えないイメージを入力として使用し、任意の長さの会話者のビデオを合成する新しいアプローチです。
OneShotA2Vはカリキュラム学習を利用して表情成分の動きを学習し、それによって与えられた人物の高品質なトーキングヘッドビデオを生成する。
論文 参考訳(メタデータ) (2020-12-14T10:50:05Z) - Learning Representations from Audio-Visual Spatial Alignment [76.29670751012198]
音声・視覚コンテンツから表現を学習するための新しい自己教師型プレテキストタスクを提案する。
提案したプリテキストタスクの利点は、様々なオーディオおよびビジュアルダウンストリームタスクで実証される。
論文 参考訳(メタデータ) (2020-11-03T16:20:04Z) - Multimodal Speech Recognition with Unstructured Audio Masking [49.01826387664443]
我々はモデルトレーニング中にRandWordMaskと呼ばれるより現実的なマスキングシナリオをシミュレートする。
Flickr 8K Audio Captions Corpusで行った実験では、マルチモーダルASRが様々な種類のマスキング語を復元するために一般化できることが示されている。
分析の結果,音声信号が破損した場合に,我々のモデルが視覚信号に対応できることが判明した。
論文 参考訳(メタデータ) (2020-10-16T21:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。