論文の概要: Learning Audio-Visual embedding for Wild Person Verification
- arxiv url: http://arxiv.org/abs/2209.04093v1
- Date: Fri, 9 Sep 2022 02:29:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-12 13:15:04.040017
- Title: Learning Audio-Visual embedding for Wild Person Verification
- Title(参考訳): 野生人検証のための視聴覚埋め込み学習
- Authors: Peiwen Sun, Shanshan Zhang, Zishan Liu, Yougen Yuan, Taotao Zhang,
Honggang Zhang, Pengfei Hu
- Abstract要約: 本稿では,融合の観点からアグリゲータを考慮した音声視覚ネットワークを提案する。
顔認証において初めて注意統計のプールを改良した。
最後に、モダリティをゲートアテンション機構で融合する。
- 参考スコア(独自算出の注目度): 18.488385598522125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It has already been observed that audio-visual embedding can be extracted
from these two modalities to gain robustness for person verification. However,
the aggregator that used to generate a single utterance representation from
each frame does not seem to be well explored. In this article, we proposed an
audio-visual network that considers aggregator from a fusion perspective. We
introduced improved attentive statistics pooling for the first time in face
verification. Then we find that strong correlation exists between modalities
during pooling, so joint attentive pooling is proposed which contains cycle
consistency to learn the implicit inter-frame weight. Finally, fuse the
modality with a gated attention mechanism. All the proposed models are trained
on the VoxCeleb2 dev dataset and the best system obtains 0.18\%, 0.27\%, and
0.49\% EER on three official trail lists of VoxCeleb1 respectively, which is to
our knowledge the best-published results for person verification. As an
analysis, visualization maps are generated to explain how this system interact
between modalities.
- Abstract(参考訳): この2つのモードから音声-視覚的埋め込みを抽出し,個人認証の堅牢性を得ることができた。
しかし、各フレームから1つの発話表現を生成するアグリゲータは、よく調べられていないようである。
本稿では,融合の観点からアグリゲータを考慮した音声視覚ネットワークを提案する。
顔認証において, 注意統計プーリングの改善を初めて導入した。
そして, プール中のモード間には強い相関関係があることが判明し, フレーム間重みを暗黙的に学習するサイクル整合性を含む連係プーリングが提案される。
最後に、モダリティをゲートアテンション機構で融合する。
提案したモデルはすべてVoxCeleb2開発データセットに基づいてトレーニングされており、最も優れたシステムはVoxCeleb1の3つのオフィシャルパスリストにおいて0.18\%、0.27\%、および0.49\%のEERを得る。
解析として可視化マップが生成され、このシステムがモダリティ間の相互作用を説明する。
関連論文リスト
- MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Cross-modal Audio-visual Co-learning for Text-independent Speaker
Verification [55.624946113550195]
本稿では,モーダルな発話協調学習パラダイムを提案する。
モーダル変換相関を学習するために、2つのクロスモーダルブースターを導入する。
LRSLip3, GridLip, LomGridLip, VoxLip を用いた実験の結果,提案手法は平均相対性能を60%, 20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-02-22T10:06:37Z) - AV-data2vec: Self-supervised Learning of Audio-Visual Speech
Representations with Contextualized Target Representations [88.30635799280923]
AV-data2vecを導入し、文脈化表現の予測に基づいて音声・視覚表現を構築する。
LRS3の結果は、AV-data2vecが、同じ量のデータとモデルサイズで既存のメソッドを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-10T02:55:52Z) - A Study of Multimodal Person Verification Using Audio-Visual-Thermal
Data [4.149096351426994]
本研究では,音声・視覚・熱的モーダルを用いたマルチモーダル人物の検証手法について検討する。
我々は,最先端のディープラーニングアーキテクチャを用いて,一元的,二元的,三元的検証システムを実装した。
論文 参考訳(メタデータ) (2021-10-23T04:41:03Z) - Summarize and Search: Learning Consensus-aware Dynamic Convolution for
Co-Saliency Detection [139.10628924049476]
人間は、まず、グループ全体のコンセンサス知識を要約し、その後、各画像内の対応するオブジェクトを検索することで、共相検出を行う。
以前の方法は、通常、最初のプロセスで堅牢性、スケーラビリティ、安定性を欠き、第2のプロセスでイメージ機能とコンセンサス機能を融合させる。
本稿では,新たなコンセンサスを考慮した動的畳み込みモデルを提案する。
論文 参考訳(メタデータ) (2021-10-01T12:06:42Z) - Squeeze-Excitation Convolutional Recurrent Neural Networks for
Audio-Visual Scene Classification [4.191965713559235]
本稿では,自動シーン分類のためのマルチモーダルモデルを提案する。
聴覚情報と視覚情報を同時に利用する。
予測性能とシステムの複雑さとの間には、優れたトレードオフがあることが示されている。
論文 参考訳(メタデータ) (2021-07-28T06:10:10Z) - Visualizing Classifier Adjacency Relations: A Case Study in Speaker
Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。
ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。
提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文 参考訳(メタデータ) (2021-06-11T13:03:33Z) - Positive Sample Propagation along the Audio-Visual Event Line [29.25572713908162]
視覚信号と音声信号はしばしば自然環境に共存し、オーディオ視覚イベント(AVE)を形成する
我々は,近縁な音声と視覚のペアを発見し,活用するための新しい正のサンプル伝搬(PSP)モジュールを提案する。
我々は,公開avデータセットを広範囲に実験し,完全かつ弱い教師付き設定で新たな最先端精度を実現する。
論文 参考訳(メタデータ) (2021-04-01T03:53:57Z) - A Multi-View Approach To Audio-Visual Speaker Verification [38.9710777250597]
本研究では,音声視覚による話者検証手法について検討する。
voxceleb1データセットの最低av等しいエラーレート(eer)は0.7%である。
この新しいアプローチは、クロスモーダル検証の困難なテスト条件において、voxceleb1のeerを28%達成する。
論文 参考訳(メタデータ) (2021-02-11T22:29:25Z) - Multimodal Attention Fusion for Target Speaker Extraction [108.73502348754842]
マルチモーダル核融合のための新しい注意機構とその訓練方法を提案する。
シミュレーションデータに対する従来の核融合機構よりも,信号対歪み比(SDR)を1.0dB向上させる。
論文 参考訳(メタデータ) (2021-02-02T05:59:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。