論文の概要: Weakly-Supervised Multi-Task Learning for Audio-Visual Speaker
Verification
- arxiv url: http://arxiv.org/abs/2309.07115v1
- Date: Wed, 13 Sep 2023 17:45:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-14 13:09:50.479039
- Title: Weakly-Supervised Multi-Task Learning for Audio-Visual Speaker
Verification
- Title(参考訳): 聴覚的話者認証のための弱教師付きマルチタスク学習
- Authors: Anith Selvakumar and Homa Fashandi
- Abstract要約: オープンセット音声-視覚的話者照合のための頑健なマルチモーダル人物最適化表現を実現する手法を提案する。
我々のネットワークは,VoxCeleb1-O/E/Hの3つの公式トライアルリストにおいて,0.244%,0.252%,0.441%の誤り率(EER)を報告し,話者検証のための技術性能の状態を達成している。
- 参考スコア(独自算出の注目度): 0.5261718469769449
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a methodology for achieving robust multimodal
person representations optimized for open-set audio-visual speaker
verification. Distance Metric Learning (DML) approaches have typically
dominated this problem space, owing to strong performance on new and unseen
classes. In our work, we explored multitask learning techniques to further
boost performance of the DML approach and show that an auxiliary task with weak
labels can increase the compactness of the learned speaker representation. We
also extend the Generalized end-to-end loss (GE2E) to multimodal inputs and
demonstrate that it can achieve competitive performance in an audio-visual
space. Finally, we introduce a non-synchronous audio-visual sampling random
strategy during training time that has shown to improve generalization. Our
network achieves state of the art performance for speaker verification,
reporting 0.244%, 0.252%, 0.441% Equal Error Rate (EER) on the three official
trial lists of VoxCeleb1-O/E/H, which is to our knowledge, the best published
results on VoxCeleb1-E and VoxCeleb1-H.
- Abstract(参考訳): 本稿では,オープンセット音声-視覚話者照合に最適化された頑健なマルチモーダル人物表現を実現する手法を提案する。
距離メトリックラーニング(DML)アプローチは、新しいクラスや目に見えないクラスでの強いパフォーマンスのため、この問題領域を支配してきた。
本研究では,DML手法の性能向上を目的としたマルチタスク学習手法について検討し,弱いラベルを持つ補助課題が学習話者表現のコンパクト性を高めることを示す。
また、ge2e(generalized end-to-end loss)をマルチモーダル入力に拡張し、オーディオ・ビジュアル空間における競争力を発揮できることを実証する。
最後に,学習時間における非同期音声-視覚的サンプリングランダム戦略を導入し,一般化の促進を図った。
本ネットワークは,voxceleb1-eとvoxceleb1-hの3つの公式試用リストにおいて,0.244%,0.252%,0.441%等誤差率 (eer) を報告し,話者検証のための技術性能の状態を実現した。
関連論文リスト
- EquiAV: Leveraging Equivariance for Audio-Visual Contrastive Learning [36.012107899738524]
音声・視覚のコントラスト学習に等価性を利用する新しいフレームワークであるEquiAVを紹介する。
我々のアプローチは、共有注意に基づく変換予測器によって促進される音声視覚学習への同値性の拡張から始まる。
多様な拡張から代表的な埋め込みへの機能の集約を可能にし、堅牢な監視を可能にします。
論文 参考訳(メタデータ) (2024-03-14T15:44:19Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - MAViL: Masked Audio-Video Learners [68.61844803682145]
本研究では,masked Audio-Video Learningers (MAViL) を用いて映像表現の学習を行う。
MAViLによる事前トレーニングにより、音声視覚分類および検索タスクにおいて、モデルの性能が向上する。
自己監督型オーディオ視覚モデルが初めて、ベンチマークの外部監視を使用するモデルよりも優れています。
論文 参考訳(メタデータ) (2022-12-15T18:59:59Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Late Audio-Visual Fusion for In-The-Wild Speaker Diarization [33.0046568984949]
本稿では,後期融合による音声のみと視覚中心のサブシステムを組み合わせた音声視覚ダイアリゼーションモデルを提案する。
オーディオでは,提案手法を用いてシミュレーションされたプロキシデータセットのレシピをトレーニングした場合,アトラクタベースのエンドツーエンドシステム(EEND-EDA)が極めてよく動作することを示す。
また、学習中にデコードに注意を払い、話者認識損失を減らし、より多くの話者を処理するEEND-EDA++の改良版も提案する。
論文 参考訳(メタデータ) (2022-11-02T17:20:42Z) - Label-Efficient Self-Supervised Speaker Verification With Information
Maximization and Contrastive Learning [0.0]
生音声から直接表現を学習することによる話者検証のための自己教師型学習について検討する。
我々のアプローチは、最近の情報学習フレームワークと集中的なデータ前処理ステップに基づいています。
論文 参考訳(メタデータ) (2022-07-12T13:01:55Z) - Best of Both Worlds: Multi-task Audio-Visual Automatic Speech
Recognition and Active Speaker Detection [9.914246432182873]
ノイズの多い状況下では、自動音声認識は、話者の顔のビデオから得られる視覚信号を追加することで恩恵を受けることができる。
アクティブな話者検出は、可視的な顔のどれがオーディオに対応しているかを各時点に選択することを含む。
近年の研究では、話者の顔の競合するビデオトラックに注意機構を組み込むことで、両問題を同時に解決できることが示されている。
この研究は、マルチタスク損失と共同で訓練できる単一のモデルを示すことによって、アクティブな話者検出精度のこのギャップを埋める。
論文 参考訳(メタデータ) (2022-05-10T23:03:19Z) - MERLOT Reserve: Neural Script Knowledge through Vision and Language and
Sound [90.1857707251566]
MERLOT Reserveは、時間とともに動画を共同で表現するモデルである。
我々は、テキストとオーディオのスニペットをMASKトークンに置き換え、正しいマスクアウトスニペットを選択して学習する。
私たちの目標は代替手段よりも早く学習し、大規模に機能します。
論文 参考訳(メタデータ) (2022-01-07T19:00:21Z) - UniSpeech-SAT: Universal Speech Representation Learning with Speaker
Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。
SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。
トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-10-12T05:43:30Z) - A Multi-View Approach To Audio-Visual Speaker Verification [38.9710777250597]
本研究では,音声視覚による話者検証手法について検討する。
voxceleb1データセットの最低av等しいエラーレート(eer)は0.7%である。
この新しいアプローチは、クロスモーダル検証の困難なテスト条件において、voxceleb1のeerを28%達成する。
論文 参考訳(メタデータ) (2021-02-11T22:29:25Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。