論文の概要: Best of Both Worlds: Multi-task Audio-Visual Automatic Speech
Recognition and Active Speaker Detection
- arxiv url: http://arxiv.org/abs/2205.05206v1
- Date: Tue, 10 May 2022 23:03:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 18:08:33.382130
- Title: Best of Both Worlds: Multi-task Audio-Visual Automatic Speech
Recognition and Active Speaker Detection
- Title(参考訳): 両世界のベスト:マルチタスクオーディオ・ビジュアル自動音声認識とアクティブ話者検出
- Authors: Otavio Braga, Olivier Siohan
- Abstract要約: ノイズの多い状況下では、自動音声認識は、話者の顔のビデオから得られる視覚信号を追加することで恩恵を受けることができる。
アクティブな話者検出は、可視的な顔のどれがオーディオに対応しているかを各時点に選択することを含む。
近年の研究では、話者の顔の競合するビデオトラックに注意機構を組み込むことで、両問題を同時に解決できることが示されている。
この研究は、マルチタスク損失と共同で訓練できる単一のモデルを示すことによって、アクティブな話者検出精度のこのギャップを埋める。
- 参考スコア(独自算出の注目度): 9.914246432182873
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Under noisy conditions, automatic speech recognition (ASR) can greatly
benefit from the addition of visual signals coming from a video of the
speaker's face. However, when multiple candidate speakers are visible this
traditionally requires solving a separate problem, namely active speaker
detection (ASD), which entails selecting at each moment in time which of the
visible faces corresponds to the audio. Recent work has shown that we can solve
both problems simultaneously by employing an attention mechanism over the
competing video tracks of the speakers' faces, at the cost of sacrificing some
accuracy on active speaker detection. This work closes this gap in active
speaker detection accuracy by presenting a single model that can be jointly
trained with a multi-task loss. By combining the two tasks during training we
reduce the ASD classification accuracy by approximately 25%, while
simultaneously improving the ASR performance when compared to the multi-person
baseline trained exclusively for ASR.
- Abstract(参考訳): 雑音条件下では、自動音声認識(ASR)は、話者の顔のビデオから得られる視覚信号の追加によって大きな恩恵を受けることができる。
しかし、複数の候補スピーカーが見えるようになると、伝統的には別の問題を解決する必要がある。すなわち、アクティベートスピーカー検出(asd)は、可視面のどの時点が音声に対応するかを選択することを伴う。
近年の研究では、アクティブな話者検出の精度を犠牲にして、競合する話者の顔の映像トラックに注意機構を組み込むことで、両問題を同時に解決できることが示されている。
この研究は、マルチタスク損失と共同で訓練できる単一のモデルを示すことによって、アクティブな話者検出精度のこのギャップを埋める。
トレーニング中の2つのタスクを組み合わせることで、ASD分類精度を約25%削減すると同時に、ASR専用にトレーニングされた多人数ベースラインと比較して、ASR性能を向上する。
関連論文リスト
- Investigation of Speaker Representation for Target-Speaker Speech Processing [49.110228525976794]
本論文は,目標話者音声処理タスクに好まれる話者埋め込みとは何か,という根本的な問題に対処することを目的としている。
TS-ASR, TSE, p-VADタスクでは, 対象話者の事前録音音声からの話者埋め込みを, 対象話者の同一性から直接1ホットベクトルの形で計算する事前学習話者エンコーダを比較した。
分析の結果,話者検証性能はTSタスク性能とは多少無関係であり,一ホットベクトルは入学者ベースよりも優れており,最適埋め込みは入力混合に依存していることがわかった。
論文 参考訳(メタデータ) (2024-10-15T03:58:13Z) - Leveraging Visual Supervision for Array-based Active Speaker Detection
and Localization [3.836171323110284]
簡単な音声畳み込みリカレントニューラルネットワークにより,水平型アクティブ話者検出と局所化を同時に行うことができることを示す。
本稿では,生徒の学習アプローチを取り入れた,自己指導型学習パイプラインを提案する。
論文 参考訳(メタデータ) (2023-12-21T16:53:04Z) - Getting More for Less: Using Weak Labels and AV-Mixup for Robust Audio-Visual Speaker Verification [0.4681661603096334]
ラベルの弱い補助的なタスクは、学習した話者表現の質を高めることができることを示す。
また、GE2E(Generalized End-to-End Loss)をマルチモーダル入力に拡張し、オーディオ視覚空間における競合性能の実現を実証する。
我々のネットワークは,VoxCeleb1-O/E/Hテストセット上で,0.244%,0.252%,0.441%のEER(Equal Error Rate)を報告した。
論文 参考訳(メタデータ) (2023-09-13T17:45:41Z) - In search of strong embedding extractors for speaker diarisation [49.7017388682077]
話者ダイアリゼーションにEEを採用する際の2つの重要な問題に対処する。
まず、性能向上に必要な特徴が話者検証とダイアリゼーションに異なるため、評価は簡単ではない。
広く採用されている話者検証評価プロトコルの性能向上は、ダイアリゼーション性能の向上に繋がらないことを示す。
重なり合う音声や話者変化の入力を認識するために,2番目の問題を緩和する2つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-10-26T13:00:29Z) - A Closer Look at Audio-Visual Multi-Person Speech Recognition and Active
Speaker Selection [9.914246432182873]
様々な雑音条件下では,エンド・ツー・エンドのモデルが,少なくとも大きな2段階のシステムを動作させることを示す。
トレーニングデータとして5万時間以上の公開YouTubeビデオを収録した実験では、アクティブな話者選択タスクにおいて、最初に注目層の精度を評価する。
論文 参考訳(メタデータ) (2022-05-11T15:55:31Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Look\&Listen: Multi-Modal Correlation Learning for Active Speaker
Detection and Speech Enhancement [18.488808141923492]
ADENetは,音声・視覚モデルの共同学習による話者検出と音声強調を実現するために提案されている。
聴覚と視覚ストリームの相互関係は,マルチタスク学習の課題に対して有望な解決法である。
論文 参考訳(メタデータ) (2022-03-04T09:53:19Z) - Streaming Multi-speaker ASR with RNN-T [8.701566919381223]
本研究は、リカレントニューラルネットワークトランスデューサ(RNN-T)に基づくマルチスピーカ音声認識に焦点を当てている。
RNN-Tの高レベル話者追跡能力を高めるために,前者における話者順ラベルの分離が重要であることを示す。
我々の最良モデルは、前述した最先端非ストリーミングモデル(10.3%)と競合する2話者Libriデータ上で10.2%のWERを達成する。
論文 参考訳(メタデータ) (2020-11-23T19:10:40Z) - Speaker-Utterance Dual Attention for Speaker and Utterance Verification [77.2346078109261]
我々は,統合ニューラルネットワークにおける話者発話二重注意(SUDA)の考え方を実装した。
提案するSUDAは,話者と発話情報ストリーム間のインタラクションを学習するためのアテンションマスク機構を備えている。
論文 参考訳(メタデータ) (2020-08-20T11:37:57Z) - Active Speakers in Context [88.22935329360618]
能動話者検出のための現在の手法は、単一話者からの短期音声視覚情報をモデル化することに焦点を当てている。
本稿では,複数話者間の関係を長期にわたってモデル化する新しい表現であるActive Speaker Contextを紹介する。
実験の結果,構造的特徴アンサンブルはすでにアクティブな話者検出性能の恩恵を受けていることがわかった。
論文 参考訳(メタデータ) (2020-05-20T01:14:23Z) - Target-Speaker Voice Activity Detection: a Novel Approach for
Multi-Speaker Diarization in a Dinner Party Scenario [51.50631198081903]
本稿では,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。
TS-VADは各時間フレーム上の各話者の活動を直接予測する。
CHiME-6での実験では、TS-VADが最先端の結果を得ることが示された。
論文 参考訳(メタデータ) (2020-05-14T21:24:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。