論文の概要: Active Speaker Detection as a Multi-Objective Optimization with
Uncertainty-based Multimodal Fusion
- arxiv url: http://arxiv.org/abs/2106.03821v1
- Date: Mon, 7 Jun 2021 17:38:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 18:30:34.702009
- Title: Active Speaker Detection as a Multi-Objective Optimization with
Uncertainty-based Multimodal Fusion
- Title(参考訳): 不確実性に基づくマルチモーダルフュージョンを用いた多目的話者検出
- Authors: Baptiste Pouthier, Laurent Pilati, Leela K. Gudupudi, Charles
Bouveyron and Frederic Precioso
- Abstract要約: 本稿では, 能動話者検出を多目的学習問題として概説し, 新たな自己注意・不確実性に基づくマルチモーダル融合方式を用いて各モーダルを最大限活用する。
その結果,提案した多目的学習アーキテクチャは,mAPとAUCのスコアを改善する従来の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 0.07874708385247352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is now well established from a variety of studies that there is a
significant benefit from combining video and audio data in detecting active
speakers. However, either of the modalities can potentially mislead audiovisual
fusion by inducing unreliable or deceptive information. This paper outlines
active speaker detection as a multi-objective learning problem to leverage best
of each modalities using a novel self-attention, uncertainty-based multimodal
fusion scheme. Results obtained show that the proposed multi-objective learning
architecture outperforms traditional approaches in improving both mAP and AUC
scores. We further demonstrate that our fusion strategy surpasses, in active
speaker detection, other modality fusion methods reported in various
disciplines. We finally show that the proposed method significantly improves
the state-of-the-art on the AVA-ActiveSpeaker dataset.
- Abstract(参考訳): 様々な研究から、アクティブな話者の検出において、ビデオと音声のデータを組み合わせることで大きな利点があることが明らかになっている。
しかし、どちらのモダリティも、信頼できない情報や偽装情報を誘導することで、オーディオ視覚融合を誤解させる可能性がある。
本稿では, 能動話者検出を多目的学習問題として概説し, 新たな自己注意・不確実性に基づくマルチモーダル融合方式を用いて各モーダルを最大限活用する。
その結果,提案した多目的学習アーキテクチャは,mAPとAUCのスコアを改善する従来の手法よりも優れていた。
さらに,本研究の融合戦略が,様々な分野において報告された能動的話者検出,その他のモダリティ融合手法を上回ることを実証した。
最後に,提案手法がAVA-ActiveSpeakerデータセットの最先端性を大幅に向上することを示す。
関連論文リスト
- RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Integrating Audio, Visual, and Semantic Information for Enhanced Multimodal Speaker Diarization [25.213694510527436]
既存の話者ダイアリゼーションシステムの多くは、単調な音響情報のみに依存している。
本稿では,音声,視覚,意味的手がかりを併用して話者ダイアリゼーションを向上する新しいマルチモーダル手法を提案する。
我々の手法は、最先端の話者ダイアリゼーション法より一貫して優れている。
論文 参考訳(メタデータ) (2024-08-22T03:34:03Z) - Detecting Misinformation in Multimedia Content through Cross-Modal Entity Consistency: A Dual Learning Approach [10.376378437321437]
クロスモーダルなエンティティの整合性を利用して、ビデオコンテンツから誤情報を検出するためのマルチメディア誤情報検出フレームワークを提案する。
以上の結果から,MultiMDは最先端のベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-08-16T16:14:36Z) - Learning Language-guided Adaptive Hyper-modality Representation for
Multimodal Sentiment Analysis [22.012103941836838]
適応型言語誘導型マルチモーダルトランス(ALMT)を提案する。
ALMTにはAdaptive Hyper-modality Learning (AHL)モジュールが組み込まれており、無関係/複雑圧縮表現を学習する。
ALMTは、いくつかの一般的なデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-10-09T15:43:07Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Multimodal Imbalance-Aware Gradient Modulation for Weakly-supervised
Audio-Visual Video Parsing [107.031903351176]
弱分離型音声視覚ビデオ解析(WS-AVVP)は、音声、視覚および音声視覚イベントインスタンスの時間的範囲をローカライズすることを目的としている。
WS-AVVPは、トレーニング用にビデオレベルのカテゴリラベルのみを使用して、対応するイベントカテゴリを特定することを目的としている。
論文 参考訳(メタデータ) (2023-07-05T05:55:10Z) - On Robustness in Multimodal Learning [75.03719000820388]
マルチモーダル学習は、ビデオ、オーディオ、テキストなどの複数の入力モダリティの学習として定義される。
本稿では,一般的なマルチモーダル表現学習手法の体系的解析を行うためのマルチモーダルロバストネスフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-10T05:02:07Z) - Multi-Modal Perception Attention Network with Self-Supervised Learning
for Audio-Visual Speaker Tracking [18.225204270240734]
音声と視覚の両方を用いた話者追跡のための新しいマルチモーダル・パーセプション・トラッカー(MPT)を提案する。
MPTは標準データセットと排他データセットでそれぞれ98.6%と78.3%のトラッキング精度を達成した。
論文 参考訳(メタデータ) (2021-12-14T14:14:17Z) - Multistage linguistic conditioning of convolutional layers for speech
emotion recognition [7.482371204083917]
分類的・次元音声感情認識(SER)におけるテキストと音声の深層融合の有効性について検討する。
深層ニューラルネットワーク(DNN)の複数の層に2つの情報ストリームを統合する新しい多段階融合法を提案する。
広く使われているIEMOCAPとMSP-Podcastデータベースの実験により、この2つの融合法は浅い(後期)核融合ベースラインよりも明らかに優れていることが示された。
論文 参考訳(メタデータ) (2021-10-13T11:28:04Z) - MAAS: Multi-modal Assignation for Active Speaker Detection [59.08836580733918]
本稿では,本問題のマルチモーダル性に直接対処するアクティブな話者検出手法を提案する。
実験では,単一フレームで構築した小さなグラフデータ構造により,瞬時に発生する視聴覚課題を近似できることを示した。
論文 参考訳(メタデータ) (2021-01-11T02:57:25Z) - Active Speakers in Context [88.22935329360618]
能動話者検出のための現在の手法は、単一話者からの短期音声視覚情報をモデル化することに焦点を当てている。
本稿では,複数話者間の関係を長期にわたってモデル化する新しい表現であるActive Speaker Contextを紹介する。
実験の結果,構造的特徴アンサンブルはすでにアクティブな話者検出性能の恩恵を受けていることがわかった。
論文 参考訳(メタデータ) (2020-05-20T01:14:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。