論文の概要: End-to-End Multi-Person Audio/Visual Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2205.05586v1
- Date: Wed, 11 May 2022 15:57:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 18:07:40.086986
- Title: End-to-End Multi-Person Audio/Visual Automatic Speech Recognition
- Title(参考訳): マルチパーソン音声/視覚自動音声認識
- Authors: Otavio Braga, Takaki Makino, Olivier Siohan, Hank Liao
- Abstract要約: ビデオ内の複数の顔トラックを処理できる完全微分可能なA/V ASRモデルを提案する。
YouTubeビデオの30k時間以上でトレーニングされたA/Vシステムによる実験では、提案手法が適切な顔のトラックを自動的に選択できることが示されている。
- 参考スコア(独自算出の注目度): 10.170354459144454
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Traditionally, audio-visual automatic speech recognition has been studied
under the assumption that the speaking face on the visual signal is the face
matching the audio. However, in a more realistic setting, when multiple faces
are potentially on screen one needs to decide which face to feed to the A/V ASR
system. The present work takes the recent progress of A/V ASR one step further
and considers the scenario where multiple people are simultaneously on screen
(multi-person A/V ASR). We propose a fully differentiable A/V ASR model that is
able to handle multiple face tracks in a video. Instead of relying on two
separate models for speaker face selection and audio-visual ASR on a single
face track, we introduce an attention layer to the ASR encoder that is able to
soft-select the appropriate face video track. Experiments carried out on an A/V
system trained on over 30k hours of YouTube videos illustrate that the proposed
approach can automatically select the proper face tracks with minor WER
degradation compared to an oracle selection of the speaking face while still
showing benefits of employing the visual signal instead of the audio alone.
- Abstract(参考訳): 従来,視覚信号の発話面が音声と一致する顔であるという仮定のもと,音声・視覚自動音声認識が研究されてきた。
しかし、より現実的な環境では、複数の顔がスクリーン上にある可能性がある場合、A/V ASRシステムに供給する顔を決定する必要がある。
本研究は、A/V ASRの最近の進歩を一歩進め、複数の人が同時にスクリーン上にいるシナリオ(複数人A/V ASR)を考える。
ビデオ内の複数の顔トラックを処理できる完全微分可能なA/V ASRモデルを提案する。
話者の顔選択のための2つの異なるモデルと1つの顔トラック上のオーディオ・ビジュアルasrに頼る代わりに、適切な顔ビデオトラックをソフト選択できるasrエンコーダに注意層を導入する。
YouTubeビデオの30k時間以上でトレーニングされたA/Vシステムで行った実験では、音声のみの代わりに視覚信号を使用することのメリットを示しながら、音声のオラクル選択と比較して、WER劣化の少ない適切な顔トラックを自動選択できることが示されている。
関連論文リスト
- A Closer Look at Audio-Visual Multi-Person Speech Recognition and Active
Speaker Selection [9.914246432182873]
様々な雑音条件下では,エンド・ツー・エンドのモデルが,少なくとも大きな2段階のシステムを動作させることを示す。
トレーニングデータとして5万時間以上の公開YouTubeビデオを収録した実験では、アクティブな話者選択タスクにおいて、最初に注目層の精度を評価する。
論文 参考訳(メタデータ) (2022-05-11T15:55:31Z) - Best of Both Worlds: Multi-task Audio-Visual Automatic Speech
Recognition and Active Speaker Detection [9.914246432182873]
ノイズの多い状況下では、自動音声認識は、話者の顔のビデオから得られる視覚信号を追加することで恩恵を受けることができる。
アクティブな話者検出は、可視的な顔のどれがオーディオに対応しているかを各時点に選択することを含む。
近年の研究では、話者の顔の競合するビデオトラックに注意機構を組み込むことで、両問題を同時に解決できることが示されている。
この研究は、マルチタスク損失と共同で訓練できる単一のモデルを示すことによって、アクティブな話者検出精度のこのギャップを埋める。
論文 参考訳(メタデータ) (2022-05-10T23:03:19Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - VCVTS: Multi-speaker Video-to-Speech synthesis via cross-modal knowledge
transfer from voice conversion [77.50171525265056]
本稿では,音声変換(VC)からのクロスモーダルな知識伝達に基づく,VTS(Multi-Speaker Video-to-Speech)システムを提案する。
Lip2Indネットワークは、VCのコンテンツエンコーダを交換してマルチスピーカVTSシステムを形成し、サイレントビデオを音響ユニットに変換して正確な音声コンテンツを再構成する。
論文 参考訳(メタデータ) (2022-02-18T08:58:45Z) - One-shot Talking Face Generation from Single-speaker Audio-Visual
Correlation Learning [20.51814865676907]
特定の話者から一貫した音声スタイルを学ぶ方がずっと簡単で、それが本物の口の動きにつながる。
本研究では,特定の話者からの音声と視覚の動きの一致した相関関係を探索し,一対一の会話顔生成フレームワークを提案する。
学習した一貫した話し方のおかげで,本手法は真正な口の形状と鮮明な動きを生成する。
論文 参考訳(メタデータ) (2021-12-06T02:53:51Z) - Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文 参考訳(メタデータ) (2021-11-05T14:35:08Z) - Learning to Predict Salient Faces: A Novel Visual-Audio Saliency Model [96.24038430433885]
本稿では,視覚,音声,顔の3つの分枝からなるマルチモーダルビデオサリエンシーモデルを提案する。
実験結果から,提案手法は,11の最先端サリエンシ予測作業より優れていた。
論文 参考訳(メタデータ) (2021-03-29T09:09:39Z) - VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency [111.55430893354769]
ビデオでは、同時の背景音や他の人間のスピーカーにもかかわらず、顔に関連するスピーチを抽出することを目的としています。
本手法は,非ラベル映像から音声-視覚音声分離とクロスモーダル話者埋め込みを共同で学習する。
音声-視覚音声分離と強化のための5つのベンチマークデータセットで最新の結果が得られます。
論文 参考訳(メタデータ) (2021-01-08T18:25:24Z) - Robust One Shot Audio to Video Generation [10.957973845883162]
OneShotA2Vは、音声信号と人の単一の見えないイメージを入力として使用し、任意の長さの会話者のビデオを合成する新しいアプローチです。
OneShotA2Vはカリキュラム学習を利用して表情成分の動きを学習し、それによって与えられた人物の高品質なトーキングヘッドビデオを生成する。
論文 参考訳(メタデータ) (2020-12-14T10:50:05Z) - Multi Modal Adaptive Normalization for Audio to Video Generation [18.812696623555855]
本稿では,音声信号と人物の単一画像とを入力として,任意の長さの人物映像を合成するマルチモーダル適応正規化(MAN)アーキテクチャを提案する。
このアーキテクチャでは,マルチモーダル適応正規化,キーポイントヒートマップ予測器,光フロー予測器,およびクラスアクティベーションマップ[58]ベースのレイヤを用いて,表情成分の動きを学習する。
論文 参考訳(メタデータ) (2020-12-14T07:39:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。