論文の概要: Best of Both Worlds: Multi-task Audio-Visual Automatic Speech
Recognition and Active Speaker Detection
- arxiv url: http://arxiv.org/abs/2205.05206v1
- Date: Tue, 10 May 2022 23:03:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 18:08:33.382130
- Title: Best of Both Worlds: Multi-task Audio-Visual Automatic Speech
Recognition and Active Speaker Detection
- Title(参考訳): 両世界のベスト:マルチタスクオーディオ・ビジュアル自動音声認識とアクティブ話者検出
- Authors: Otavio Braga, Olivier Siohan
- Abstract要約: ノイズの多い状況下では、自動音声認識は、話者の顔のビデオから得られる視覚信号を追加することで恩恵を受けることができる。
アクティブな話者検出は、可視的な顔のどれがオーディオに対応しているかを各時点に選択することを含む。
近年の研究では、話者の顔の競合するビデオトラックに注意機構を組み込むことで、両問題を同時に解決できることが示されている。
この研究は、マルチタスク損失と共同で訓練できる単一のモデルを示すことによって、アクティブな話者検出精度のこのギャップを埋める。
- 参考スコア(独自算出の注目度): 9.914246432182873
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Under noisy conditions, automatic speech recognition (ASR) can greatly
benefit from the addition of visual signals coming from a video of the
speaker's face. However, when multiple candidate speakers are visible this
traditionally requires solving a separate problem, namely active speaker
detection (ASD), which entails selecting at each moment in time which of the
visible faces corresponds to the audio. Recent work has shown that we can solve
both problems simultaneously by employing an attention mechanism over the
competing video tracks of the speakers' faces, at the cost of sacrificing some
accuracy on active speaker detection. This work closes this gap in active
speaker detection accuracy by presenting a single model that can be jointly
trained with a multi-task loss. By combining the two tasks during training we
reduce the ASD classification accuracy by approximately 25%, while
simultaneously improving the ASR performance when compared to the multi-person
baseline trained exclusively for ASR.
- Abstract(参考訳): 雑音条件下では、自動音声認識(ASR)は、話者の顔のビデオから得られる視覚信号の追加によって大きな恩恵を受けることができる。
しかし、複数の候補スピーカーが見えるようになると、伝統的には別の問題を解決する必要がある。すなわち、アクティベートスピーカー検出(asd)は、可視面のどの時点が音声に対応するかを選択することを伴う。
近年の研究では、アクティブな話者検出の精度を犠牲にして、競合する話者の顔の映像トラックに注意機構を組み込むことで、両問題を同時に解決できることが示されている。
この研究は、マルチタスク損失と共同で訓練できる単一のモデルを示すことによって、アクティブな話者検出精度のこのギャップを埋める。
トレーニング中の2つのタスクを組み合わせることで、ASD分類精度を約25%削減すると同時に、ASR専用にトレーニングされた多人数ベースラインと比較して、ASR性能を向上する。
関連論文リスト
- Leveraging Visual Supervision for Array-based Active Speaker Detection
and Localization [3.836171323110284]
簡単な音声畳み込みリカレントニューラルネットワークにより,水平型アクティブ話者検出と局所化を同時に行うことができることを示す。
本稿では,生徒の学習アプローチを取り入れた,自己指導型学習パイプラインを提案する。
論文 参考訳(メタデータ) (2023-12-21T16:53:04Z) - In search of strong embedding extractors for speaker diarisation [49.7017388682077]
話者ダイアリゼーションにEEを採用する際の2つの重要な問題に対処する。
まず、性能向上に必要な特徴が話者検証とダイアリゼーションに異なるため、評価は簡単ではない。
広く採用されている話者検証評価プロトコルの性能向上は、ダイアリゼーション性能の向上に繋がらないことを示す。
重なり合う音声や話者変化の入力を認識するために,2番目の問題を緩和する2つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-10-26T13:00:29Z) - A Closer Look at Audio-Visual Multi-Person Speech Recognition and Active
Speaker Selection [9.914246432182873]
様々な雑音条件下では,エンド・ツー・エンドのモデルが,少なくとも大きな2段階のシステムを動作させることを示す。
トレーニングデータとして5万時間以上の公開YouTubeビデオを収録した実験では、アクティブな話者選択タスクにおいて、最初に注目層の精度を評価する。
論文 参考訳(メタデータ) (2022-05-11T15:55:31Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Look\&Listen: Multi-Modal Correlation Learning for Active Speaker
Detection and Speech Enhancement [18.488808141923492]
ADENetは,音声・視覚モデルの共同学習による話者検出と音声強調を実現するために提案されている。
聴覚と視覚ストリームの相互関係は,マルチタスク学習の課題に対して有望な解決法である。
論文 参考訳(メタデータ) (2022-03-04T09:53:19Z) - Personalized Speech Enhancement: New Models and Comprehensive Evaluation [27.572537325449158]
従来提案されていたVoiceFilterよりも優れた性能を実現するために,パーソナライズされた音声強調(PSE)モデルのための2つのニューラルネットワークを提案する。
また、ビデオ会議中にユーザが遭遇するさまざまなシナリオをキャプチャするテストセットも作成します。
その結果,提案モデルでは,ベースラインモデルよりも音声認識精度,音声認識精度,知覚品質が向上することが示唆された。
論文 参考訳(メタデータ) (2021-10-18T21:21:23Z) - Investigating on Incorporating Pretrained and Learnable Speaker
Representations for Multi-Speaker Multi-Style Text-to-Speech [54.75722224061665]
本研究では,異なる話者表現を調査し,事前学習可能な話者表現を統合することを提案する。
FastSpeech 2モデルと事前訓練された話者表現と学習可能な話者表現を組み合わせることで、少数の話者に対して大きな一般化能力を示す。
論文 参考訳(メタデータ) (2021-03-06T10:14:33Z) - Streaming Multi-speaker ASR with RNN-T [8.701566919381223]
本研究は、リカレントニューラルネットワークトランスデューサ(RNN-T)に基づくマルチスピーカ音声認識に焦点を当てている。
RNN-Tの高レベル話者追跡能力を高めるために,前者における話者順ラベルの分離が重要であることを示す。
我々の最良モデルは、前述した最先端非ストリーミングモデル(10.3%)と競合する2話者Libriデータ上で10.2%のWERを達成する。
論文 参考訳(メタデータ) (2020-11-23T19:10:40Z) - Speaker-Utterance Dual Attention for Speaker and Utterance Verification [77.2346078109261]
我々は,統合ニューラルネットワークにおける話者発話二重注意(SUDA)の考え方を実装した。
提案するSUDAは,話者と発話情報ストリーム間のインタラクションを学習するためのアテンションマスク機構を備えている。
論文 参考訳(メタデータ) (2020-08-20T11:37:57Z) - Active Speakers in Context [88.22935329360618]
能動話者検出のための現在の手法は、単一話者からの短期音声視覚情報をモデル化することに焦点を当てている。
本稿では,複数話者間の関係を長期にわたってモデル化する新しい表現であるActive Speaker Contextを紹介する。
実験の結果,構造的特徴アンサンブルはすでにアクティブな話者検出性能の恩恵を受けていることがわかった。
論文 参考訳(メタデータ) (2020-05-20T01:14:23Z) - Target-Speaker Voice Activity Detection: a Novel Approach for
Multi-Speaker Diarization in a Dinner Party Scenario [51.50631198081903]
本稿では,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。
TS-VADは各時間フレーム上の各話者の活動を直接予測する。
CHiME-6での実験では、TS-VADが最先端の結果を得ることが示された。
論文 参考訳(メタデータ) (2020-05-14T21:24:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。