論文の概要: Getting More for Less: Using Weak Labels and AV-Mixup for Robust Audio-Visual Speaker Verification
- arxiv url: http://arxiv.org/abs/2309.07115v2
- Date: Thu, 13 Jun 2024 13:08:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-15 02:19:21.659784
- Title: Getting More for Less: Using Weak Labels and AV-Mixup for Robust Audio-Visual Speaker Verification
- Title(参考訳): 弱音ラベルとAV-Mixupを用いたロバスト・オーディオ・ビジュアル・スピーカーの検証
- Authors: Anith Selvakumar, Homa Fashandi,
- Abstract要約: ラベルの弱い補助的なタスクは、学習した話者表現の質を高めることができることを示す。
また、GE2E(Generalized End-to-End Loss)をマルチモーダル入力に拡張し、オーディオ視覚空間における競合性能の実現を実証する。
我々のネットワークは,VoxCeleb1-O/E/Hテストセット上で,0.244%,0.252%,0.441%のEER(Equal Error Rate)を報告した。
- 参考スコア(独自算出の注目度): 0.4681661603096334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distance Metric Learning (DML) has typically dominated the audio-visual speaker verification problem space, owing to strong performance in new and unseen classes. In our work, we explored multitask learning techniques to further enhance DML, and show that an auxiliary task with even weak labels can increase the quality of the learned speaker representation without increasing model complexity during inference. We also extend the Generalized End-to-End Loss (GE2E) to multimodal inputs and demonstrate that it can achieve competitive performance in an audio-visual space. Finally, we introduce AV-Mixup, a multimodal augmentation technique during training time that has shown to reduce speaker overfit. Our network achieves state of the art performance for speaker verification, reporting 0.244%, 0.252%, 0.441% Equal Error Rate (EER) on the VoxCeleb1-O/E/H test sets, which is to our knowledge, the best published results on VoxCeleb1-E and VoxCeleb1-H.
- Abstract(参考訳): 距離距離メトリックラーニング(DML)は、新しいクラスや目に見えないクラスでの性能が強いため、通常、音声と視覚による話者認証の問題領域を支配してきた。
そこで本研究では,DMLをさらに強化するマルチタスク学習手法について検討し,弱いラベルを持つ補助タスクが,推論時のモデル複雑性を増大させることなく,学習話者表現の質を高めることを示す。
また、GE2E(Generalized End-to-End Loss)をマルチモーダル入力に拡張し、オーディオ視覚空間における競合性能の実現を実証する。
最後に,AV-Mixupについて述べる。これは,話者過度を減少させる訓練時間におけるマルチモーダル拡張手法である。
我々のネットワークは,VoxCeleb1-O/E/Hテストセットにおいて,0.244%,0.252%,0.441%の誤り率(EER)を報告し,話者検証の最先端性能を実現している。
関連論文リスト
- EquiAV: Leveraging Equivariance for Audio-Visual Contrastive Learning [36.012107899738524]
音声・視覚のコントラスト学習に等価性を利用する新しいフレームワークであるEquiAVを紹介する。
我々のアプローチは、共有注意に基づく変換予測器によって促進される音声視覚学習への同値性の拡張から始まる。
多様な拡張から代表的な埋め込みへの機能の集約を可能にし、堅牢な監視を可能にします。
論文 参考訳(メタデータ) (2024-03-14T15:44:19Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - MAViL: Masked Audio-Video Learners [68.61844803682145]
本研究では,masked Audio-Video Learningers (MAViL) を用いて映像表現の学習を行う。
MAViLによる事前トレーニングにより、音声視覚分類および検索タスクにおいて、モデルの性能が向上する。
自己監督型オーディオ視覚モデルが初めて、ベンチマークの外部監視を使用するモデルよりも優れています。
論文 参考訳(メタデータ) (2022-12-15T18:59:59Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Late Audio-Visual Fusion for In-The-Wild Speaker Diarization [33.0046568984949]
本稿では,後期融合による音声のみと視覚中心のサブシステムを組み合わせた音声視覚ダイアリゼーションモデルを提案する。
オーディオでは,提案手法を用いてシミュレーションされたプロキシデータセットのレシピをトレーニングした場合,アトラクタベースのエンドツーエンドシステム(EEND-EDA)が極めてよく動作することを示す。
また、学習中にデコードに注意を払い、話者認識損失を減らし、より多くの話者を処理するEEND-EDA++の改良版も提案する。
論文 参考訳(メタデータ) (2022-11-02T17:20:42Z) - Label-Efficient Self-Supervised Speaker Verification With Information
Maximization and Contrastive Learning [0.0]
生音声から直接表現を学習することによる話者検証のための自己教師型学習について検討する。
我々のアプローチは、最近の情報学習フレームワークと集中的なデータ前処理ステップに基づいています。
論文 参考訳(メタデータ) (2022-07-12T13:01:55Z) - Best of Both Worlds: Multi-task Audio-Visual Automatic Speech
Recognition and Active Speaker Detection [9.914246432182873]
ノイズの多い状況下では、自動音声認識は、話者の顔のビデオから得られる視覚信号を追加することで恩恵を受けることができる。
アクティブな話者検出は、可視的な顔のどれがオーディオに対応しているかを各時点に選択することを含む。
近年の研究では、話者の顔の競合するビデオトラックに注意機構を組み込むことで、両問題を同時に解決できることが示されている。
この研究は、マルチタスク損失と共同で訓練できる単一のモデルを示すことによって、アクティブな話者検出精度のこのギャップを埋める。
論文 参考訳(メタデータ) (2022-05-10T23:03:19Z) - MERLOT Reserve: Neural Script Knowledge through Vision and Language and
Sound [90.1857707251566]
MERLOT Reserveは、時間とともに動画を共同で表現するモデルである。
我々は、テキストとオーディオのスニペットをMASKトークンに置き換え、正しいマスクアウトスニペットを選択して学習する。
私たちの目標は代替手段よりも早く学習し、大規模に機能します。
論文 参考訳(メタデータ) (2022-01-07T19:00:21Z) - UniSpeech-SAT: Universal Speech Representation Learning with Speaker
Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。
SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。
トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-10-12T05:43:30Z) - A Multi-View Approach To Audio-Visual Speaker Verification [38.9710777250597]
本研究では,音声視覚による話者検証手法について検討する。
voxceleb1データセットの最低av等しいエラーレート(eer)は0.7%である。
この新しいアプローチは、クロスモーダル検証の困難なテスト条件において、voxceleb1のeerを28%達成する。
論文 参考訳(メタデータ) (2021-02-11T22:29:25Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。