論文の概要: A Closer Look at Audio-Visual Multi-Person Speech Recognition and Active
Speaker Selection
- arxiv url: http://arxiv.org/abs/2205.05684v1
- Date: Wed, 11 May 2022 15:55:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 13:02:58.931561
- Title: A Closer Look at Audio-Visual Multi-Person Speech Recognition and Active
Speaker Selection
- Title(参考訳): 音声・視覚多人数音声認識とアクティブ話者選択について
- Authors: Otavio Braga, Olivier Siohan
- Abstract要約: 様々な雑音条件下では,エンド・ツー・エンドのモデルが,少なくとも大きな2段階のシステムを動作させることを示す。
トレーニングデータとして5万時間以上の公開YouTubeビデオを収録した実験では、アクティブな話者選択タスクにおいて、最初に注目層の精度を評価する。
- 参考スコア(独自算出の注目度): 9.914246432182873
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Audio-visual automatic speech recognition is a promising approach to robust
ASR under noisy conditions. However, up until recently it had been
traditionally studied in isolation assuming the video of a single speaking face
matches the audio, and selecting the active speaker at inference time when
multiple people are on screen was put aside as a separate problem. As an
alternative, recent work has proposed to address the two problems
simultaneously with an attention mechanism, baking the speaker selection
problem directly into a fully differentiable model. One interesting finding was
that the attention indirectly learns the association between the audio and the
speaking face even though this correspondence is never explicitly provided at
training time. In the present work we further investigate this connection and
examine the interplay between the two problems. With experiments involving over
50 thousand hours of public YouTube videos as training data, we first evaluate
the accuracy of the attention layer on an active speaker selection task.
Secondly, we show under closer scrutiny that an end-to-end model performs at
least as well as a considerably larger two-step system that utilizes a hard
decision boundary under various noise conditions and number of parallel face
tracks.
- Abstract(参考訳): 音声・視覚自動音声認識は、雑音条件下での頑健なASRに対する有望なアプローチである。
しかし、近年まで、単一の話し手の映像が音声と一致していると仮定し、複数の人が画面に映っているときの推測時にアクティブな話者を選択することは別個の問題として、孤立して研究されてきた。
代替として、近年の研究では、話者選択問題を直接完全に微分可能なモデルに焼き込むことで、2つの問題を同時に注意メカニズムで解決する提案がなされている。
興味深い発見は、トレーニング時にこの対応が明示的に提供されないにもかかわらず、注意が間接的に音声と発話面の関係を学習することであった。
本研究は, この関係をさらに調査し, 両問題間の相互作用について検討する。
5万時間以上のyoutube公開動画をトレーニングデータとして実験を行い、まず、アクティブな話者選択タスクにおける注意層の精度を評価した。
第2に,様々な雑音条件下でのハード決定境界と並列面のトラック数を利用して,エンド・ツー・エンド・モデルが少なくとも大きな2ステップ・システムとして機能することを示す。
関連論文リスト
- End-to-End Multi-Person Audio/Visual Automatic Speech Recognition [10.170354459144454]
ビデオ内の複数の顔トラックを処理できる完全微分可能なA/V ASRモデルを提案する。
YouTubeビデオの30k時間以上でトレーニングされたA/Vシステムによる実験では、提案手法が適切な顔のトラックを自動的に選択できることが示されている。
論文 参考訳(メタデータ) (2022-05-11T15:57:47Z) - Best of Both Worlds: Multi-task Audio-Visual Automatic Speech
Recognition and Active Speaker Detection [9.914246432182873]
ノイズの多い状況下では、自動音声認識は、話者の顔のビデオから得られる視覚信号を追加することで恩恵を受けることができる。
アクティブな話者検出は、可視的な顔のどれがオーディオに対応しているかを各時点に選択することを含む。
近年の研究では、話者の顔の競合するビデオトラックに注意機構を組み込むことで、両問題を同時に解決できることが示されている。
この研究は、マルチタスク損失と共同で訓練できる単一のモデルを示すことによって、アクティブな話者検出精度のこのギャップを埋める。
論文 参考訳(メタデータ) (2022-05-10T23:03:19Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Smoothing Dialogue States for Open Conversational Machine Reading [70.83783364292438]
本稿では,2つの対話状態を1つのデコーダとブリッジ決定と質問生成でスムーズにすることで,効果的なゲーティング戦略を提案する。
OR-ShARCデータセットを用いた実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-08-28T08:04:28Z) - The Right to Talk: An Audio-Visual Transformer Approach [27.71444773878775]
本研究は,複数話者会話ビデオの音声および視覚チャネルにおける主話者のローカライゼーションと強調を行うために,新たなオーディオ・ビジュアル・トランスフォーマーアプローチを導入する。
我々の知る限りでは、マルチスピーカー会話ビデオにおいて、視覚と音声の両方で主話者を自動的にローカライズし、ハイライトすることができる最初の研究の1つである。
論文 参考訳(メタデータ) (2021-08-06T18:04:24Z) - Streaming Multi-talker Speech Recognition with Joint Speaker
Identification [77.46617674133556]
SURITは、音声認識と話者識別の両方のバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を採用しています。
Librispeechから派生したマルチストーカーデータセットであるLibrispeechデータセットに関するアイデアを検証し、奨励的な結果を提示した。
論文 参考訳(メタデータ) (2021-04-05T18:37:33Z) - MAAS: Multi-modal Assignation for Active Speaker Detection [59.08836580733918]
本稿では,本問題のマルチモーダル性に直接対処するアクティブな話者検出手法を提案する。
実験では,単一フレームで構築した小さなグラフデータ構造により,瞬時に発生する視聴覚課題を近似できることを示した。
論文 参考訳(メタデータ) (2021-01-11T02:57:25Z) - VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency [111.55430893354769]
ビデオでは、同時の背景音や他の人間のスピーカーにもかかわらず、顔に関連するスピーチを抽出することを目的としています。
本手法は,非ラベル映像から音声-視覚音声分離とクロスモーダル話者埋め込みを共同で学習する。
音声-視覚音声分離と強化のための5つのベンチマークデータセットで最新の結果が得られます。
論文 参考訳(メタデータ) (2021-01-08T18:25:24Z) - Multi-view Temporal Alignment for Non-parallel Articulatory-to-Acoustic
Speech Synthesis [59.623780036359655]
A2A(Articulatory-to-Aoustic)合成は、音声刺激器のキャプチャされた動きから可聴音声の生成を指します。
この手法には、病気や怪我のためにもはや話せない人々への口頭コミュニケーションの回復など、多くの応用がある。
本稿では,多視点学習の理論に基づく問題解決法を提案する。
論文 参考訳(メタデータ) (2020-12-30T15:09:02Z) - Audio-visual Speech Separation with Adversarially Disentangled Visual
Representation [23.38624506211003]
音声分離は、複数の同時話者による音声の混合から個々の音声を分離することを目的としている。
本モデルでは,顔検出器を用いて現場の話者数を検出し,視覚情報を用いて順列化問題を回避する。
提案モデルは,最先端のオーディオのみのモデルと3つのオーディオ視覚モデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-11-29T10:48:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。