論文の概要: Multi-Modal Perception Attention Network with Self-Supervised Learning
for Audio-Visual Speaker Tracking
- arxiv url: http://arxiv.org/abs/2112.07423v1
- Date: Tue, 14 Dec 2021 14:14:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-15 15:59:06.482021
- Title: Multi-Modal Perception Attention Network with Self-Supervised Learning
for Audio-Visual Speaker Tracking
- Title(参考訳): 自己教師付き学習によるマルチモーダル知覚注意ネットワークによる話者追跡
- Authors: Yidi Li, Hong Liu, Hao Tang
- Abstract要約: 音声と視覚の両方を用いた話者追跡のための新しいマルチモーダル・パーセプション・トラッカー(MPT)を提案する。
MPTは標準データセットと排他データセットでそれぞれ98.6%と78.3%のトラッキング精度を達成した。
- 参考スコア(独自算出の注目度): 18.225204270240734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal fusion is proven to be an effective method to improve the
accuracy and robustness of speaker tracking, especially in complex scenarios.
However, how to combine the heterogeneous information and exploit the
complementarity of multi-modal signals remains a challenging issue. In this
paper, we propose a novel Multi-modal Perception Tracker (MPT) for speaker
tracking using both audio and visual modalities. Specifically, a novel acoustic
map based on spatial-temporal Global Coherence Field (stGCF) is first
constructed for heterogeneous signal fusion, which employs a camera model to
map audio cues to the localization space consistent with the visual cues. Then
a multi-modal perception attention network is introduced to derive the
perception weights that measure the reliability and effectiveness of
intermittent audio and video streams disturbed by noise. Moreover, a unique
cross-modal self-supervised learning method is presented to model the
confidence of audio and visual observations by leveraging the complementarity
and consistency between different modalities. Experimental results show that
the proposed MPT achieves 98.6% and 78.3% tracking accuracy on the standard and
occluded datasets, respectively, which demonstrates its robustness under
adverse conditions and outperforms the current state-of-the-art methods.
- Abstract(参考訳): マルチモーダル融合は、特に複雑なシナリオにおいて、話者追跡の精度と堅牢性を改善する効果的な方法であることが証明されている。
しかし、異質な情報を組み合わせてマルチモーダル信号の相補性を利用する方法が課題となっている。
本稿では,音声と視覚の両方のモダリティを用いた話者追跡のためのマルチモーダル知覚トラッカ(mpt)を提案する。
具体的には,空間-時間的大域コヒーレンス場(stgcf)に基づく新しい音響マップを構築し,視覚手がかりに整合した定位空間に音響手がかりをマッピングするカメラモデルを用いた異種信号融合を行った。
そして、ノイズに邪魔された間欠的なオーディオやビデオストリームの信頼性と有効性を測定するために、マルチモーダルな知覚注意ネットワークを導入する。
さらに,異なるモード間の相補性と一貫性を活かし,音声と視覚観察の信頼度をモデル化する一意なクロスモーダル自己教師付き学習法を提案する。
実験結果から,MPTは標準データセットと隠蔽データセットでそれぞれ98.6%,78.3%の追跡精度を達成し,そのロバスト性を悪条件下で示し,現在の最先端手法よりも優れていた。
関連論文リスト
- A Study of Dropout-Induced Modality Bias on Robustness to Missing Video
Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。
ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。
本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T06:06:55Z) - A unified multichannel far-field speech recognition system: combining
neural beamforming with attention based end-to-end model [14.795953417531907]
本稿では,ニューラルビームフォーミングとトランスフォーマーをベースとしたリステン,スペル,アトンド(LAS)音声認識システムを組み合わせた多チャンネル遠距離音声認識システムを提案する。
提案手法は, 強いベースラインに比べて19.26%向上した。
論文 参考訳(メタデータ) (2024-01-05T07:11:13Z) - CMMD: Contrastive Multi-Modal Diffusion for Video-Audio Conditional
Modeling [24.03008887467105]
ビデオとオーディオの双方向条件生成に適したマルチモーダル拡散モデルを提案する。
本稿では,視覚と聴覚の同期性を高めるために,協調学習損失を提案する。
論文 参考訳(メタデータ) (2023-12-08T23:55:19Z) - Multimodal Imbalance-Aware Gradient Modulation for Weakly-supervised
Audio-Visual Video Parsing [107.031903351176]
弱分離型音声視覚ビデオ解析(WS-AVVP)は、音声、視覚および音声視覚イベントインスタンスの時間的範囲をローカライズすることを目的としている。
WS-AVVPは、トレーニング用にビデオレベルのカテゴリラベルのみを使用して、対応するイベントカテゴリを特定することを目的としている。
論文 参考訳(メタデータ) (2023-07-05T05:55:10Z) - Complete Cross-triplet Loss in Label Space for Audio-visual Cross-modal
Retrieval [7.459223771397159]
クロスモーダルデータ(例えばオーディオヴィジュアル)は直接比較できない分布と表現が異なる。
オーディオ・ヴィジュアルデータの自然な同期における内在的相関をアノテートされたラベルの助けを借りることで、オーディオ・ヴィジュアル・モダリティ間のギャップを埋めるため、それらの共通部分空間を学習する。
ラベルを直接予測して意味的特徴を最適化する新しいAV-CMRモデルを提案する。
論文 参考訳(メタデータ) (2022-11-07T10:37:14Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Active Speaker Detection as a Multi-Objective Optimization with
Uncertainty-based Multimodal Fusion [0.07874708385247352]
本稿では, 能動話者検出を多目的学習問題として概説し, 新たな自己注意・不確実性に基づくマルチモーダル融合方式を用いて各モーダルを最大限活用する。
その結果,提案した多目的学習アーキテクチャは,mAPとAUCのスコアを改善する従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-06-07T17:38:55Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - Multimodal Attention Fusion for Target Speaker Extraction [108.73502348754842]
マルチモーダル核融合のための新しい注意機構とその訓練方法を提案する。
シミュレーションデータに対する従来の核融合機構よりも,信号対歪み比(SDR)を1.0dB向上させる。
論文 参考訳(メタデータ) (2021-02-02T05:59:35Z) - MAAS: Multi-modal Assignation for Active Speaker Detection [59.08836580733918]
本稿では,本問題のマルチモーダル性に直接対処するアクティブな話者検出手法を提案する。
実験では,単一フレームで構築した小さなグラフデータ構造により,瞬時に発生する視聴覚課題を近似できることを示した。
論文 参考訳(メタデータ) (2021-01-11T02:57:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。