論文の概要: Multi-Modal Perception Attention Network with Self-Supervised Learning
for Audio-Visual Speaker Tracking
- arxiv url: http://arxiv.org/abs/2112.07423v1
- Date: Tue, 14 Dec 2021 14:14:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-15 15:59:06.482021
- Title: Multi-Modal Perception Attention Network with Self-Supervised Learning
for Audio-Visual Speaker Tracking
- Title(参考訳): 自己教師付き学習によるマルチモーダル知覚注意ネットワークによる話者追跡
- Authors: Yidi Li, Hong Liu, Hao Tang
- Abstract要約: 音声と視覚の両方を用いた話者追跡のための新しいマルチモーダル・パーセプション・トラッカー(MPT)を提案する。
MPTは標準データセットと排他データセットでそれぞれ98.6%と78.3%のトラッキング精度を達成した。
- 参考スコア(独自算出の注目度): 18.225204270240734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal fusion is proven to be an effective method to improve the
accuracy and robustness of speaker tracking, especially in complex scenarios.
However, how to combine the heterogeneous information and exploit the
complementarity of multi-modal signals remains a challenging issue. In this
paper, we propose a novel Multi-modal Perception Tracker (MPT) for speaker
tracking using both audio and visual modalities. Specifically, a novel acoustic
map based on spatial-temporal Global Coherence Field (stGCF) is first
constructed for heterogeneous signal fusion, which employs a camera model to
map audio cues to the localization space consistent with the visual cues. Then
a multi-modal perception attention network is introduced to derive the
perception weights that measure the reliability and effectiveness of
intermittent audio and video streams disturbed by noise. Moreover, a unique
cross-modal self-supervised learning method is presented to model the
confidence of audio and visual observations by leveraging the complementarity
and consistency between different modalities. Experimental results show that
the proposed MPT achieves 98.6% and 78.3% tracking accuracy on the standard and
occluded datasets, respectively, which demonstrates its robustness under
adverse conditions and outperforms the current state-of-the-art methods.
- Abstract(参考訳): マルチモーダル融合は、特に複雑なシナリオにおいて、話者追跡の精度と堅牢性を改善する効果的な方法であることが証明されている。
しかし、異質な情報を組み合わせてマルチモーダル信号の相補性を利用する方法が課題となっている。
本稿では,音声と視覚の両方のモダリティを用いた話者追跡のためのマルチモーダル知覚トラッカ(mpt)を提案する。
具体的には,空間-時間的大域コヒーレンス場(stgcf)に基づく新しい音響マップを構築し,視覚手がかりに整合した定位空間に音響手がかりをマッピングするカメラモデルを用いた異種信号融合を行った。
そして、ノイズに邪魔された間欠的なオーディオやビデオストリームの信頼性と有効性を測定するために、マルチモーダルな知覚注意ネットワークを導入する。
さらに,異なるモード間の相補性と一貫性を活かし,音声と視覚観察の信頼度をモデル化する一意なクロスモーダル自己教師付き学習法を提案する。
実験結果から,MPTは標準データセットと隠蔽データセットでそれぞれ98.6%,78.3%の追跡精度を達成し,そのロバスト性を悪条件下で示し,現在の最先端手法よりも優れていた。
関連論文リスト
- STNet: Deep Audio-Visual Fusion Network for Robust Speaker Tracking [8.238662377845142]
本稿では,音声・視覚融合モデルを用いた新しい話者追跡ネットワーク(STNet)を提案する。
AV16.3とCAV3Dデータセットの実験により、提案されたSTNetベースのトラッカーは、ユニモーダルな手法と最先端のオーディオヴィジュアルなスピーカートラッカーよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-10-08T12:15:17Z) - Unveiling and Mitigating Bias in Audio Visual Segmentation [9.427676046134374]
コミュニティ研究者は、物体のマスクの音質を改善するために、様々な高度なオーディオ視覚セグメンテーションモデルを開発した。
これらのモデルによって作られたマスクは、最初は可塑性に見えるかもしれないが、しばしば誤った接地論理を持つ異常を示す。
我々はこれを、複雑なオーディオ・視覚的グラウンドよりも単純な学習信号として、現実世界固有の嗜好と分布に帰着する。
論文 参考訳(メタデータ) (2024-07-23T16:55:04Z) - AUD-TGN: Advancing Action Unit Detection with Temporal Convolution and GPT-2 in Wild Audiovisual Contexts [8.809586885539002]
音声・視覚的マルチモーダルデータを利用した新しい手法を提案する。
本手法は,Mel Frequency Cepstral Coefficients (MFCC) とLog-Mel Spectrogram を,事前学習したVGGishネットワークと共に利用することにより,音声特徴抽出を強化する。
本手法は,データの時間的・文脈的ニュアンスを理解することにより,AU検出の精度を著しく向上させ,複雑なシナリオの理解における重要な進歩を示す。
論文 参考訳(メタデータ) (2024-03-20T15:37:19Z) - A Study of Dropout-Induced Modality Bias on Robustness to Missing Video
Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。
ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。
本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T06:06:55Z) - CMMD: Contrastive Multi-Modal Diffusion for Video-Audio Conditional Modeling [21.380988939240844]
ビデオとオーディオの双方向条件生成に適したマルチモーダル拡散モデルを提案する。
本稿では,視覚と聴覚の同期を改善するために,協調学習損失を提案する。
論文 参考訳(メタデータ) (2023-12-08T23:55:19Z) - Multimodal Imbalance-Aware Gradient Modulation for Weakly-supervised
Audio-Visual Video Parsing [107.031903351176]
弱分離型音声視覚ビデオ解析(WS-AVVP)は、音声、視覚および音声視覚イベントインスタンスの時間的範囲をローカライズすることを目的としている。
WS-AVVPは、トレーニング用にビデオレベルのカテゴリラベルのみを使用して、対応するイベントカテゴリを特定することを目的としている。
論文 参考訳(メタデータ) (2023-07-05T05:55:10Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - Multimodal Attention Fusion for Target Speaker Extraction [108.73502348754842]
マルチモーダル核融合のための新しい注意機構とその訓練方法を提案する。
シミュレーションデータに対する従来の核融合機構よりも,信号対歪み比(SDR)を1.0dB向上させる。
論文 参考訳(メタデータ) (2021-02-02T05:59:35Z) - MAAS: Multi-modal Assignation for Active Speaker Detection [59.08836580733918]
本稿では,本問題のマルチモーダル性に直接対処するアクティブな話者検出手法を提案する。
実験では,単一フレームで構築した小さなグラフデータ構造により,瞬時に発生する視聴覚課題を近似できることを示した。
論文 参考訳(メタデータ) (2021-01-11T02:57:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。