論文の概要: Dynamic Cross Attention for Audio-Visual Person Verification
- arxiv url: http://arxiv.org/abs/2403.04661v2
- Date: Tue, 12 Mar 2024 20:52:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 10:59:07.895667
- Title: Dynamic Cross Attention for Audio-Visual Person Verification
- Title(参考訳): 視覚的人物認証のための動的クロスアテンション
- Authors: R. Gnana Praveen, Jahangir Alam
- Abstract要約: 本研究では,動的クロスアテンション(DCA)モデルを提案する。
特に、コンディショナルゲーティング層は、クロスアテンション機構の寄与を評価するように設計されている。
Voxceleb1データセットで大規模な実験を行い、提案モデルの堅牢性を実証した。
- 参考スコア(独自算出の注目度): 4.229744884478575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although person or identity verification has been predominantly explored
using individual modalities such as face and voice, audio-visual fusion has
recently shown immense potential to outperform unimodal approaches. Audio and
visual modalities are often expected to pose strong complementary
relationships, which plays a crucial role in effective audio-visual fusion.
However, they may not always strongly complement each other, they may also
exhibit weak complementary relationships, resulting in poor audio-visual
feature representations. In this paper, we propose a Dynamic Cross-Attention
(DCA) model that can dynamically select the cross-attended or unattended
features on the fly based on the strong or weak complementary relationships,
respectively, across audio and visual modalities. In particular, a conditional
gating layer is designed to evaluate the contribution of the cross-attention
mechanism and choose cross-attended features only when they exhibit strong
complementary relationships, otherwise unattended features. Extensive
experiments are conducted on the Voxceleb1 dataset to demonstrate the
robustness of the proposed model. Results indicate that the proposed model
consistently improves the performance on multiple variants of cross-attention
while outperforming the state-of-the-art methods.
- Abstract(参考訳): 個人や個人認証は顔や声などの個別のモダリティを用いて主に検討されてきたが、近年では音声と視覚の融合が一助的アプローチを上回る可能性を示している。
音声と視覚のモダリティは、しばしば強い相補関係を生じさせ、効果的な視覚融合において重要な役割を担っている。
しかし、必ずしも互いに強く補完するとは限らないし、補間関係が弱く、結果として音声・視覚的特徴表現が貧弱になることもある。
本稿では,音声と視覚の相補的関係に基づき,動的クロスアテンション(DCA)モデルを提案する。
特に、条件付きゲーティング層は、クロスアテンション機構の寄与を評価し、強い相補的関係を示す場合にのみクロスアテンション特徴を選択するように設計されている。
Voxceleb1データセットで大規模な実験を行い、提案モデルの堅牢性を実証した。
その結果,提案モデルでは,複数種類のクロスアテンションの性能が常に向上し,最先端の手法よりも優れていたことが示唆された。
関連論文リスト
- Inconsistency-Aware Cross-Attention for Audio-Visual Fusion in Dimensional Emotion Recognition [3.1967132086545127]
モーダル性にまたがる相補的関係の活用は、近年、マルチモーダル感情認識において多くの注目を集めている。
Inconsistency-Aware Cross-Attention (IACA) を提案する。
Aff-Wild2データセットを用いて,提案モデルの堅牢性を示す実験を行った。
論文 参考訳(メタデータ) (2024-05-21T15:11:35Z) - Cross-Attention is Not Always Needed: Dynamic Cross-Attention for Audio-Visual Dimensional Emotion Recognition [3.5803801804085347]
本研究では,動的クロスアテンション(DCA)を提案する。
本稿では,RECOLAとAff-Wild2データセットに対する提案手法の性能評価を行う。
論文 参考訳(メタデータ) (2024-03-28T16:38:04Z) - Audio-Visual Person Verification based on Recursive Fusion of Joint Cross-Attention [3.5803801804085347]
本稿では,クロスアテンショナル・フレームワークにおいて,共同音声・視覚的特徴表現が使用されるような,共同のクロスアテンショナル・モデルを提案する。
また,音声・視覚的特徴表現の時間的モデリングを改善するため,BLSTMについても検討する。
その結果,本モデルでは,モーダル内関係とモーダル間関係を良好に捉えることにより,融合性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-03-07T16:57:45Z) - Multimodal Relation Extraction with Cross-Modal Retrieval and Synthesis [89.04041100520881]
本研究は,対象物,文,画像全体に基づいて,テキストおよび視覚的証拠を検索することを提案する。
我々は,オブジェクトレベル,画像レベル,文レベル情報を合成し,同一性と異なるモダリティ間の推論を改善する新しい手法を開発した。
論文 参考訳(メタデータ) (2023-05-25T15:26:13Z) - Audio-Visual Fusion for Emotion Recognition in the Valence-Arousal Space
Using Joint Cross-Attention [15.643176705932396]
本稿では, A-V 融合のための連成連成連成連接モデルを提案し, A-V のモダリティ間で有意な特徴を抽出する。
ジョイント特徴表現と個々のモダリティの相関に基づいて、クロスアテンション重みを計算する。
以上の結果から,我々の連立アテンショナルA-V融合モデルが,最先端のアプローチより優れたコスト効率のソリューションとなることが示唆された。
論文 参考訳(メタデータ) (2022-09-19T15:01:55Z) - Trusted Multi-View Classification with Dynamic Evidential Fusion [73.35990456162745]
信頼型マルチビュー分類(TMC)と呼ばれる新しいマルチビュー分類アルゴリズムを提案する。
TMCは、様々な視点をエビデンスレベルで動的に統合することで、マルチビュー学習のための新しいパラダイムを提供する。
理論的および実験的結果は、精度、堅牢性、信頼性において提案されたモデルの有効性を検証した。
論文 参考訳(メタデータ) (2022-04-25T03:48:49Z) - A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional Emotion Recognition [46.443866373546726]
ビデオから抽出した顔と声の融合に基づく次元的感情認識に焦点を当てた。
本稿では, 相補的関係に依拠し, 有意な特徴を抽出する連係関係モデルを提案する。
提案したA-V融合モデルにより,最先端の手法より優れたコスト効率のソリューションが提供される。
論文 参考訳(メタデータ) (2022-03-28T14:09:43Z) - Self-attention fusion for audiovisual emotion recognition with
incomplete data [103.70855797025689]
視覚的感情認識を応用したマルチモーダルデータ解析の問題点を考察する。
本稿では、生データから学習可能なアーキテクチャを提案し、その3つの変種を異なるモダリティ融合機構で記述する。
論文 参考訳(メタデータ) (2022-01-26T18:04:29Z) - MAAS: Multi-modal Assignation for Active Speaker Detection [59.08836580733918]
本稿では,本問題のマルチモーダル性に直接対処するアクティブな話者検出手法を提案する。
実験では,単一フレームで構築した小さなグラフデータ構造により,瞬時に発生する視聴覚課題を近似できることを示した。
論文 参考訳(メタデータ) (2021-01-11T02:57:25Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。