論文の概要: WASD: A Wilder Active Speaker Detection Dataset
- arxiv url: http://arxiv.org/abs/2303.05321v1
- Date: Thu, 9 Mar 2023 15:13:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-10 14:22:16.747339
- Title: WASD: A Wilder Active Speaker Detection Dataset
- Title(参考訳): WASD: より活発な話者検出データセット
- Authors: Tiago Roxo, Joana C. Costa, Pedro R. M. In\'acio, Hugo Proen\c{c}a
- Abstract要約: 現在の能動話者検出 (ASD) モデルは, 音声と顔の特徴のみを用いて, AVA-ActiveSpeaker (AVA) において優れた結果が得られる。
本稿では、現在のASDの2つの重要なコンポーネントである音声と顔をターゲットにして、より難易度の高いワイルダーアクティブ話者検出(WASD)データセットを提案する。
我々は最先端のモデルを選択し、WASDの2つのグループでそれらの性能を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Current Active Speaker Detection (ASD) models achieve great results on
AVA-ActiveSpeaker (AVA), using only sound and facial features. Although this
approach is applicable in movie setups (AVA), it is not suited for less
constrained conditions. To demonstrate this limitation, we propose a Wilder
Active Speaker Detection (WASD) dataset, with increased difficulty by targeting
the two key components of current ASD: audio and face. Grouped into 5
categories, ranging from optimal conditions to surveillance settings, WASD
contains incremental challenges for ASD with tactical impairment of audio and
face data. We select state-of-the-art models and assess their performance in
two groups of WASD: Easy (cooperative settings) and Hard (audio and/or face are
specifically degraded). The results show that: 1) AVA trained models maintain a
state-of-the-art performance in WASD Easy group, while underperforming in the
Hard one, showing the 2) similarity between AVA and Easy data; and 3) training
in WASD does not improve models performance to AVA levels, particularly for
audio impairment and surveillance settings. This shows that AVA does not
prepare models for wild ASD and current approaches are subpar to deal with such
conditions. The proposed dataset also contains body data annotations to provide
a new source for ASD, and is available at https://github.com/Tiago-Roxo/WASD.
- Abstract(参考訳): AVA-ActiveSpeaker (AVA) モデルでは, 音声と顔の特徴のみを用いて, AVA-ActiveSpeaker (AVA) において優れた結果が得られる。
このアプローチは映画設定(ava)に適用できるが、制約の少ない条件には適していない。
そこで本研究では,現在のasdにおいて,音声と顔の2つのキーコンポーネントをターゲットとすることで,難易度を高めたwasd(wilder active speaker detection)データセットを提案する。
WASDは、最適条件から監視設定まで5つのカテゴリに分類され、オーディオと顔データの戦術的障害を伴うASDに対する漸進的な課題を含んでいる。
我々は、最先端モデルを選択し、WASDの2つのグループ、イージー(協調的設定)とハード(音声および/または顔は特に劣化している)でその性能を評価する。
結果はこう示しています
1) WASD Easyグループでは,AVAトレーニングモデルでは,Hardモデルでは性能が劣りながら,最先端のパフォーマンスを維持している。
2)AVAと簡易データとの類似性
3)WASDのトレーニングは,特に聴覚障害や監視設定において,モデル性能をAVAレベルに向上させるものではない。
このことは、AVAが野生のASDのためのモデルを準備しておらず、現在のアプローチはそのような条件に対処するには不十分であることを示している。
提案されたデータセットには、ASDの新しいソースを提供するためのボディデータアノテーションも含まれており、https://github.com/Tiago-Roxo/WASDで利用可能である。
関連論文リスト
- Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。
話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。
テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文 参考訳(メタデータ) (2024-07-08T18:20:24Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - TalkNCE: Improving Active Speaker Detection with Talk-Aware Contrastive
Learning [15.673602262069531]
アクティブ話者検出(英: Active Speaker Detection、ASD)とは、ある人が話しているか否かを一連のビデオフレームで判断するタスクである。
提案するTalkNCEは,新しい会話認識型コントラスト損失である。
提案手法は, AVA-ActiveSpeaker および ASW データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-21T17:59:11Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels [100.43280310123784]
トレーニングセットのサイズを増大させるために,未ラベルデータセットの自動書き起こしの使用について検討した。
近年の文献的傾向であるトレーニングセットのサイズが大きくなると、ノイズのある書き起こしを用いたにもかかわらずWERが減少することが実証された。
提案手法は,RS2 と LRS3 の AV-ASR 上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-25T00:37:34Z) - A Light Weight Model for Active Speaker Detection [7.253335671577093]
入力候補を減らし、2次元と3次元の畳み込みを音声・視覚特徴抽出に分割し、計算量が少ないゲート再帰ユニット(GRU)をクロスモーダルモデリングに応用し、軽量な能動話者検出アーキテクチャを構築した。
AVA-ActiveSpeakerデータセットの実験結果は、我々のフレームワークが競合的なmAP性能(94.1%対94.2%)を達成することを示している。
私たちのフレームワークは、良好な堅牢性を示すColumbiaデータセットでもうまく機能します。
論文 参考訳(メタデータ) (2023-03-08T08:40:56Z) - Push-Pull: Characterizing the Adversarial Robustness for Audio-Visual
Active Speaker Detection [88.74863771919445]
我々は、音声のみ、視覚のみ、および音声-視覚的敵対攻撃下でのAVASDモデルの脆弱性を明らかにする。
また,攻撃者が現実的な相手を見つけるのを困難にするため,新たな音声・視覚的相互作用損失(AVIL)を提案する。
論文 参考訳(メタデータ) (2022-10-03T08:10:12Z) - AVA-AVD: Audio-visual Speaker Diarization in the Wild [26.97787596025907]
既存のオーディオ視覚ダイアリゼーションデータセットは主に会議室やニューススタジオのような屋内環境に焦点を当てている。
本稿では,視覚情報に基づいて識別情報をキャプチャする効果的なモータリティマスクを導入した新しいオーディオ・ビジュアル・リレーション・ネットワーク(AVR-Net)を提案する。
論文 参考訳(メタデータ) (2021-11-29T11:02:41Z) - Learning Visual Voice Activity Detection with an Automatically Annotated
Dataset [20.725871972294236]
視覚的音声活動検出(V-VAD)は、人が話しているかどうかを予測するために視覚的特徴を使用する。
本稿では,V-VADのための2つの深いアーキテクチャを提案し,その1つは顔のランドマークに基づくもので,もう1つは光学的流れに基づくものである。
我々は、WildVVADで非常に大きなデータセットを自動生成し、注釈付けするための新しい手法を紹介します。
論文 参考訳(メタデータ) (2020-09-23T15:12:24Z) - Target-Speaker Voice Activity Detection: a Novel Approach for
Multi-Speaker Diarization in a Dinner Party Scenario [51.50631198081903]
本稿では,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。
TS-VADは各時間フレーム上の各話者の活動を直接予測する。
CHiME-6での実験では、TS-VADが最先端の結果を得ることが示された。
論文 参考訳(メタデータ) (2020-05-14T21:24:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。