論文の概要: Comparative Analysis of Modality Fusion Approaches for Audio-Visual Person Identification and Verification
- arxiv url: http://arxiv.org/abs/2409.00562v2
- Date: Sat, 2 Nov 2024 22:31:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 03:46:24.925807
- Title: Comparative Analysis of Modality Fusion Approaches for Audio-Visual Person Identification and Verification
- Title(参考訳): 音響的人物識別と検証のためのモダリティ融合手法の比較分析
- Authors: Aref Farhadipour, Masoumeh Chapariniya, Teodora Vukovic, Volker Dellwo,
- Abstract要約: 音声と顔の2つのモダリティを処理し,個人識別と検証における3つのモダリティ融合戦略を比較した。
1次元畳み込みニューラルネットワークは、音声からのxベクトル抽出に使用される。
予め訓練したVGGFace2ネットワークと転送学習を顔のモダリティに活用する。
ガンマトネグラムは、ダークネット19の事前訓練ネットワークとの関わりにおいて、音声表現として使用される。
- 参考スコア(独自算出の注目度): 2.218667838700643
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal learning involves integrating information from various modalities to enhance learning and comprehension. We compare three modality fusion strategies in person identification and verification by processing two modalities: voice and face. In this paper, a one-dimensional convolutional neural network is employed for x-vector extraction from voice, while the pre-trained VGGFace2 network and transfer learning are utilized for face modality. In addition, gammatonegram is used as speech representation in engagement with the Darknet19 pre-trained network. The proposed systems are evaluated using the K-fold cross-validation technique on the 118 speakers of the test set of the VoxCeleb2 dataset. The comparative evaluations are done for single-modality and three proposed multimodal strategies in equal situations. Results demonstrate that the feature fusion strategy of gammatonegram and facial features achieves the highest performance, with an accuracy of 98.37% in the person identification task. However, concatenating facial features with the x-vector reaches 0.62% for EER in verification tasks.
- Abstract(参考訳): マルチモーダル学習は、学習と理解を強化するために、様々なモダリティからの情報を統合することを含む。
音声と顔の2つのモダリティを処理し,個人識別と検証における3つのモダリティ融合戦略を比較した。
本稿では,1次元畳み込みニューラルネットワークを音声からxベクトル抽出に使用し,事前学習したVGGFace2ネットワークと転送学習を顔のモダリティに利用する。
さらに、ガンマトングラムは、Darknet19事前訓練ネットワークとの関わりにおいて、音声表現として使用される。
提案システムは,VoxCeleb2データセットのテストセットの118話者に対して,K-foldクロスバリデーション手法を用いて評価する。
比較評価は、単一モダリティと、同じ状況下で提案された3つのマルチモーダル戦略に対して行われる。
その結果,ガンマトングラムと顔の特徴の融合戦略が最も高い性能を示し,その精度は98.37%であった。
しかしながら、xベクターと顔の特徴を結びつけることは、EERの検証タスクにおいて0.62%に達する。
関連論文リスト
- Multi-modal Speech Emotion Recognition via Feature Distribution Adaptation Network [12.200776612016698]
本稿では,特徴分布適応ネットワーク(Feature Distribution Adapted Network)と呼ばれる新しい深層帰納学習フレームワークを提案する。
本手法は,感情の一貫した表現を得るために,深層移動学習戦略を用いて視覚的特徴分布と音声的特徴分布を整列させることを目的とする。
論文 参考訳(メタデータ) (2024-10-29T13:13:30Z) - Fuse after Align: Improving Face-Voice Association Learning via Multimodal Encoder [22.836016610542387]
本稿では,音声・顔の関連性を学習するための教師なし環境における新しい枠組みを提案する。
コントラスト学習後にマルチモーダルエンコーダを導入し,二分分類によって問題に対処することにより,埋め込み内の暗黙的な情報をより効果的かつ多様な方法で学習することができる。
実験的な証拠は、我々のフレームワークが音声照合、検証、検索タスクにおいて最先端の結果を達成することを証明している。
論文 参考訳(メタデータ) (2024-04-15T07:05:14Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Cross-modal Audio-visual Co-learning for Text-independent Speaker
Verification [55.624946113550195]
本稿では,モーダルな発話協調学習パラダイムを提案する。
モーダル変換相関を学習するために、2つのクロスモーダルブースターを導入する。
LRSLip3, GridLip, LomGridLip, VoxLip を用いた実験の結果,提案手法は平均相対性能を60%, 20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-02-22T10:06:37Z) - Learning Decoupling Features Through Orthogonality Regularization [55.79910376189138]
音声認識におけるキースポッティング(KWS)と話者検証(SV)は2つの重要なタスクである。
我々は,同じネットワーク構造を持つ2分岐のディープネットワーク(KWSブランチとSVブランチ)を開発する。
KWS と SV のパフォーマンスを同時に向上させるために,新しいデカップリング特徴学習法を提案する。
論文 参考訳(メタデータ) (2022-03-31T03:18:13Z) - Research on facial expression recognition based on Multimodal data
fusion and neural network [2.5431493111705943]
このアルゴリズムはマルチモーダルデータに基づいており、顔画像、画像の方向勾配のヒストグラム、顔のランドマークを入力とする。
実験結果から, マルチモーダルデータの相補性により, 精度, 堅牢性, 検出速度が大幅に向上したことがわかった。
論文 参考訳(メタデータ) (2021-09-26T23:45:40Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Supervised Contrastive Learning for Accented Speech Recognition [7.5253263976291676]
アクセント付き音声認識のための教師付きコントラスト学習フレームワークについて検討する。
比較学習は平均して3.66%(ゼロショット)と3.78%(フルショット)の精度を向上できることを示す。
論文 参考訳(メタデータ) (2021-07-02T09:23:33Z) - Cross-modality Person re-identification with Shared-Specific Feature
Transfer [112.60513494602337]
クロスモダリティの人物再識別(cm-ReID)は、インテリジェントビデオ分析において難しいが重要な技術である。
モーダリティ共有型特徴伝達アルゴリズム (cm-SSFT) を提案し, モーダリティ共有型情報とモーダリティ固有特性の両方のポテンシャルについて検討する。
論文 参考訳(メタデータ) (2020-02-28T00:18:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。