論文の概要: Audio-Visual Person Verification based on Recursive Fusion of Joint
Cross-Attention
- arxiv url: http://arxiv.org/abs/2403.04654v2
- Date: Tue, 12 Mar 2024 20:50:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 10:59:07.415875
- Title: Audio-Visual Person Verification based on Recursive Fusion of Joint
Cross-Attention
- Title(参考訳): 再帰的関節融合に基づく聴覚・視覚人物の検証
交差注意
- Authors: R. Gnana Praveen, Jahangir Alam
- Abstract要約: 本稿では,クロスアテンショナル・フレームワークにおいて,共同音声・視覚的特徴表現が使用されるような,共同のクロスアテンショナル・モデルを提案する。
また,音声・視覚的特徴表現の時間的モデリングを改善するため,BLSTMについても検討する。
その結果,本モデルでは,モーダル内関係とモーダル間関係を良好に捉えることにより,融合性能が向上することが示唆された。
- 参考スコア(独自算出の注目度): 4.229744884478575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Person or identity verification has been recently gaining a lot of attention
using audio-visual fusion as faces and voices share close associations with
each other. Conventional approaches based on audio-visual fusion rely on
score-level or early feature-level fusion techniques. Though existing
approaches showed improvement over unimodal systems, the potential of
audio-visual fusion for person verification is not fully exploited. In this
paper, we have investigated the prospect of effectively capturing both the
intra- and inter-modal relationships across audio and visual modalities, which
can play a crucial role in significantly improving the fusion performance over
unimodal systems. In particular, we introduce a recursive fusion of a joint
cross-attentional model, where a joint audio-visual feature representation is
employed in the cross-attention framework in a recursive fashion to
progressively refine the feature representations that can efficiently capture
the intra-and inter-modal relationships. To further enhance the audio-visual
feature representations, we have also explored BLSTMs to improve the temporal
modeling of audio-visual feature representations. Extensive experiments are
conducted on the Voxceleb1 dataset to evaluate the proposed model. Results
indicate that the proposed model shows promising improvement in fusion
performance by adeptly capturing the intra-and inter-modal relationships across
audio and visual modalities.
- Abstract(参考訳): 近年,顔や声が互いに密接な関連性を共有しているため,音声と視覚の融合による個人認証や身元確認が注目されている。
従来の音声-視覚融合に基づくアプローチは、スコアレベルまたは初期特徴レベルの融合技術に依存している。
既存のアプローチでは、単調なシステムよりも改善が見られたが、人物認証のための音声-視覚融合の可能性は、十分に活用されていない。
本稿では,音声と視覚の両モード間の相互関係を効果的に把握する可能性について検討した。
特に,共用音声・視覚的特徴表現を相互意図の枠組みで再帰的に活用し,モーダル内およびモーダル間関係を効果的に捉えることのできる特徴表現を段階的に洗練する,連用音声・視覚的特徴表現モデルの再帰的融合を導入する。
音声・視覚的特徴表現をさらに強化するため,音声・視覚的特徴表現の時間的モデリングを改善するため,BLSTMについても検討した。
提案モデルを評価するために,Voxceleb1データセット上で大規模な実験を行った。
以上の結果から,本モデルでは,音声と視覚の相違点を網羅的に捉えることにより,融合性能が向上することが示唆された。
関連論文リスト
- Unveiling the Power of Audio-Visual Early Fusion Transformers with Dense
Interactions through Masked Modeling [24.346868432774453]
人間は聴覚情報と視覚情報を統合でき、周囲の環境をより深く理解することができる。
認知心理学と神経科学の研究を通じて実証された、音声と視覚の早期融合は、マルチモーダル知覚モデルを開発するための有望な可能性を提供する。
初期融合によるオーディオ・ビジュアル・エンコーダの訓練にマスク付き再構成フレームワークを活用することで、早期融合アーキテクチャの訓練に対処する。
本研究では,局所的な音声と視覚的表現の相互作用を捉え,細粒度な相互作用を捕捉するモデルの能力を向上する,注意に基づく融合モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-02T03:38:49Z) - Rethink Cross-Modal Fusion in Weakly-Supervised Audio-Visual Video
Parsing [58.9467115916639]
本研究では, 核融合における非相関なクロスモーダルコンテキストを低減するために, メッセンジャー誘導型中間核融合変換器を提案する。
メッセンジャーは、完全なクロスモーダルコンテキストをコンパクトな表現に凝縮し、有用なクロスモーダル情報のみを保持する。
そこで我々は,無関係な音声情報の視覚事象予測への影響を抑えるために,クロスオーディオ予測整合性を提案する。
論文 参考訳(メタデータ) (2023-11-14T13:27:03Z) - Audio-Visual Speaker Verification via Joint Cross-Attention [4.229744884478575]
モーダル間補間情報とモーダル内情報を完全に活用するためのモーダル間共同注意
モーダル内およびモーダル間関係を効率よく活用することで、話者検証のための音声・視覚融合の性能が著しく向上することを示してきた。
論文 参考訳(メタデータ) (2023-09-28T16:25:29Z) - AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual Representation Models [92.92233932921741]
AV-SUPERBベンチマークは,音声・視覚・バイモーダル融合表現の汎用的評価を可能にする。
我々は,最近の5つの自己教師型モデルを評価し,これらのモデルがすべてのタスクに一般化されないことを示す。
我々は,AudioSetを用いた中間タスクの微調整と音声イベント分類によって表現が改善されることを実証した。
論文 参考訳(メタデータ) (2023-09-19T17:35:16Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Audio-Visual Fusion for Emotion Recognition in the Valence-Arousal Space
Using Joint Cross-Attention [15.643176705932396]
本稿では, A-V 融合のための連成連成連成連接モデルを提案し, A-V のモダリティ間で有意な特徴を抽出する。
ジョイント特徴表現と個々のモダリティの相関に基づいて、クロスアテンション重みを計算する。
以上の結果から,我々の連立アテンショナルA-V融合モデルが,最先端のアプローチより優れたコスト効率のソリューションとなることが示唆された。
論文 参考訳(メタデータ) (2022-09-19T15:01:55Z) - A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional Emotion Recognition [46.443866373546726]
ビデオから抽出した顔と声の融合に基づく次元的感情認識に焦点を当てた。
本稿では, 相補的関係に依拠し, 有意な特徴を抽出する連係関係モデルを提案する。
提案したA-V融合モデルにより,最先端の手法より優れたコスト効率のソリューションが提供される。
論文 参考訳(メタデータ) (2022-03-28T14:09:43Z) - Audio-visual speech separation based on joint feature representation
with cross-modal attention [45.210105822471256]
本研究は,アテンション機構を備えた音声と視覚ストリームから,共同特徴表現を学習することから着想を得たものである。
音声と視覚の分離をさらに改善するため、唇の動きの濃密な光学的流れが組み込まれている。
性能の全体的な改善により、追加のモーションネットワークは、唇画像と音声信号の組み合わせによる視覚的表現を効果的に強化することを示した。
論文 参考訳(メタデータ) (2022-03-05T04:39:46Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z) - Audio-Visual Event Localization via Recursive Fusion by Joint
Co-Attention [25.883429290596556]
音声-視覚イベントのローカライゼーションタスクにおける大きな課題は、複数のモーダルからの情報を効果的に融合する方法にある。
近年の研究では、核融合プロセスにおいて注意機構が有用であることが示されている。
音声・視覚イベントの局所化のためのマルチモーダル融合法を用いた新しい共同注意機構を提案する。
論文 参考訳(メタデータ) (2020-08-14T21:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。