論文の概要: A Multi-View Approach To Audio-Visual Speaker Verification
- arxiv url: http://arxiv.org/abs/2102.06291v1
- Date: Thu, 11 Feb 2021 22:29:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-15 12:57:28.785821
- Title: A Multi-View Approach To Audio-Visual Speaker Verification
- Title(参考訳): マルチビューによる音声・視覚話者照合
- Authors: Leda Sar{\i}, Kritika Singh, Jiatong Zhou, Lorenzo Torresani, Nayan
Singhal, Yatharth Saraf
- Abstract要約: 本研究では,音声視覚による話者検証手法について検討する。
voxceleb1データセットの最低av等しいエラーレート(eer)は0.7%である。
この新しいアプローチは、クロスモーダル検証の困難なテスト条件において、voxceleb1のeerを28%達成する。
- 参考スコア(独自算出の注目度): 38.9710777250597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although speaker verification has conventionally been an audio-only task,
some practical applications provide both audio and visual streams of input. In
these cases, the visual stream provides complementary information and can often
be leveraged in conjunction with the acoustics of speech to improve
verification performance. In this study, we explore audio-visual approaches to
speaker verification, starting with standard fusion techniques to learn joint
audio-visual (AV) embeddings, and then propose a novel approach to handle
cross-modal verification at test time. Specifically, we investigate unimodal
and concatenation based AV fusion and report the lowest AV equal error rate
(EER) of 0.7% on the VoxCeleb1 dataset using our best system. As these methods
lack the ability to do cross-modal verification, we introduce a multi-view
model which uses a shared classifier to map audio and video into the same
space. This new approach achieves 28% EER on VoxCeleb1 in the challenging
testing condition of cross-modal verification.
- Abstract(参考訳): 話者検証は従来は音声のみのタスクであったが、いくつかの実用的な応用は音声と視覚の両方の入力ストリームを提供する。
このような場合、視覚ストリームは相補的な情報を提供し、しばしば音声の音響と連動して、検証性能を向上させることができる。
本研究では, 標準核融合技術を用いて音声ビジュアル(AV)埋め込みを学習し, 音声ビジュアル(AV)による音声検証手法を検討し, テスト時にクロスモーダル検証を処理する新しい手法を提案する。
具体的には、VoxCeleb1データセットにおいて、統一および連結に基づくAV融合を調査し、最低のAV等誤差率(EER)0.7%を最良システムを用いて報告します。
これらの手法ではクロスモーダル検証ができないため,共有分類器を用いて音声と映像を同一空間にマップするマルチビューモデルを導入する。
この新しいアプローチは、クロスモーダル検証の困難なテスト条件において、voxceleb1のeerを28%達成する。
関連論文リスト
- AVFF: Audio-Visual Feature Fusion for Video Deepfake Detection [2.985620880452743]
本稿では,2段階のクロスモーダル学習法であるAVFF(Audio-Visual Feature Fusion)を提案する。
マルチモーダルな表現を抽出するために、コントラスト学習と自動符号化の目的を使い、新しい音声-視覚マスキングと特徴融合戦略を導入する。
我々は、FakeAVCelebデータセットの98.6%の精度と99.1%のAUCを報告し、現在のオーディオ・ビジュアル・オブ・ザ・アートをそれぞれ14.9%、9.9%上回った。
論文 参考訳(メタデータ) (2024-06-05T05:20:12Z) - Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。
この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。
また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文 参考訳(メタデータ) (2024-02-04T03:02:35Z) - Audio-Visual Speaker Verification via Joint Cross-Attention [4.229744884478575]
モーダル間補間情報とモーダル内情報を完全に活用するためのモーダル間共同注意
モーダル内およびモーダル間関係を効率よく活用することで、話者検証のための音声・視覚融合の性能が著しく向上することを示してきた。
論文 参考訳(メタデータ) (2023-09-28T16:25:29Z) - Leveraging Foundation models for Unsupervised Audio-Visual Segmentation [49.94366155560371]
AVS (Audio-Visual) は、可聴物体をピクセルレベルの視覚シーンで正確に概説することを目的としている。
既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。
タスク固有のデータアノテーションやモデルトレーニングを必要とせず、教師なしの音声-視覚的セグメンテーションを導入する。
論文 参考訳(メタデータ) (2023-09-13T05:05:47Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation [18.001730255429347]
オーディオ視覚セグメント化(AVS)は、音声視覚キューに基づいて、正確に音を分割する作業である。
我々は,難易度と比較的偏りのない高画質な視覚的セグメンテーション・ベンチマークを構築するための新たなコスト効率戦略を提案する。
既存のAVSデータセットおよび我々の新しいベンチマークで行った実験により、我々の手法は最先端(SOTA)セグメンテーションの精度を達成できた。
論文 参考訳(メタデータ) (2023-04-06T09:54:06Z) - AV-data2vec: Self-supervised Learning of Audio-Visual Speech
Representations with Contextualized Target Representations [88.30635799280923]
AV-data2vecを導入し、文脈化表現の予測に基づいて音声・視覚表現を構築する。
LRS3の結果は、AV-data2vecが、同じ量のデータとモデルサイズで既存のメソッドを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-10T02:55:52Z) - Learnable Irrelevant Modality Dropout for Multimodal Action Recognition
on Modality-Specific Annotated Videos [10.478479158063982]
本稿では,アクション認識のための視覚特異的アノテーション付きビデオにおける音声モダリティを効果的に活用するための新しいフレームワークを提案する。
我々は、各ビデオラベルをK関連オーディオラベルにマッピングするセマンティックオーディオビデオラベル辞書(SAVLD)を構築した。
また、視覚的モダリティを効率的にモデル化する2ストリームビデオトランスも提案する。
論文 参考訳(メタデータ) (2022-03-06T17:31:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。