論文の概要: GateFusion: Hierarchical Gated Cross-Modal Fusion for Active Speaker Detection
- arxiv url: http://arxiv.org/abs/2512.15707v1
- Date: Wed, 17 Dec 2025 18:56:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:27.117624
- Title: GateFusion: Hierarchical Gated Cross-Modal Fusion for Active Speaker Detection
- Title(参考訳): GateFusion: アクティブスピーカー検出のための階層的ゲート付きクロスモーダルフュージョン
- Authors: Yu Wang, Juhyung Ha, Frangil M. Ramirez, Yuchen Wang, David J. Crandall,
- Abstract要約: GateFusionは、強力な事前訓練された単調エンコーダと階層型Gated Fusion Decoder(HiGate)を組み合わせた新しいアーキテクチャである。
HiGateは、Transformerのバックボーンの複数の層で、1つのモードからもう1つのモードにコンテキスト特徴を適応的に注入することで、プログレッシブで多次元の融合を可能にする。
- 参考スコア(独自算出の注目度): 19.80016468034245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Active Speaker Detection (ASD) aims to identify who is currently speaking in each frame of a video. Most state-of-the-art approaches rely on late fusion to combine visual and audio features, but late fusion often fails to capture fine-grained cross-modal interactions, which can be critical for robust performance in unconstrained scenarios. In this paper, we introduce GateFusion, a novel architecture that combines strong pretrained unimodal encoders with a Hierarchical Gated Fusion Decoder (HiGate). HiGate enables progressive, multi-depth fusion by adaptively injecting contextual features from one modality into the other at multiple layers of the Transformer backbone, guided by learnable, bimodally-conditioned gates. To further strengthen multimodal learning, we propose two auxiliary objectives: Masked Alignment Loss (MAL) to align unimodal outputs with multimodal predictions, and Over-Positive Penalty (OPP) to suppress spurious video-only activations. GateFusion establishes new state-of-the-art results on several challenging ASD benchmarks, achieving 77.8% mAP (+9.4%), 86.1% mAP (+2.9%), and 96.1% mAP (+0.5%) on Ego4D-ASD, UniTalk, and WASD benchmarks, respectively, and delivering competitive performance on AVA-ActiveSpeaker. Out-of-domain experiments demonstrate the generalization of our model, while comprehensive ablations show the complementary benefits of each component.
- Abstract(参考訳): Active Speaker Detection (ASD) は、現在ビデオの各フレームで話している人物を特定することを目的としている。
最先端のほとんどのアプローチは、視覚的特徴とオーディオ的特徴を組み合わせるために後期融合に依存しているが、後期融合はしばしば細粒度のクロスモーダルな相互作用を捉えることに失敗する。
本稿では,強力な事前学習型単調エンコーダと階層型Gated Fusion Decoder(HiGate)を組み合わせた新しいアーキテクチャであるGateFusionを紹介する。
HiGateは、トランスフォーマーバックボーンの複数の層で、あるモダリティから別の層に文脈的特徴を適応的に注入し、学習可能なバイモーダルなゲートでガイドすることで、プログレッシブで多層的な融合を可能にする。
マルチモーダル学習をさらに強化するために、マルチモーダルな出力をマルチモーダルな予測と整合させるMasked Alignment Loss(MAL)と、刺激的なビデオのみのアクティベーションを抑制するOver-Positive Penalty(OPP)の2つの補助目標を提案する。
GateFusion はいくつかの挑戦的な ASD ベンチマークで、77.8% mAP (+9.4%)、86.1% mAP (+2.9%)、96.1% mAP (+0.5%) をそれぞれ Ego4D-ASD、UniTalk、WASD ベンチマークで達成し、AVA-ActiveSpeaker 上での競争性能を実現している。
ドメイン外の実験ではモデルの一般化が示され、包括的検証では各コンポーネントの相補的な利点が示される。
関連論文リスト
- Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model [62.889356203346985]
本稿では,モダリティ競合を処理する世界モデル拡張VLAフレームワークである Dual-STream diffusion (DUST) を提案する。
DUSTは標準のVLAベースラインと暗黙のワールドモデリングメソッドよりも最大6%向上する。
Franka Research 3による実世界のタスクでは、DUSTは成功率のベースラインを13%上回っている。
論文 参考訳(メタデータ) (2025-10-31T16:32:12Z) - MVCL-DAF++: Enhancing Multimodal Intent Recognition via Prototype-Aware Contrastive Alignment and Coarse-to-Fine Dynamic Attention Fusion [13.589965279250185]
2つの主要なモジュールでMVL-DAFを拡張するMVCL-DAF++を提案する。
MIntRecとMIntRec2.0では、MVCL-DAF++は、それぞれ+1.05%と+4.18%のWF1によるレアクラスの認識を改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-09-22T07:38:53Z) - Attention Is Not Always the Answer: Optimizing Voice Activity Detection with Simple Feature Fusion [2.403252956256118]
本研究は,Wav2vec 2.0, HuBERT, WavLM, UniSpeech, MMS, Whisper など,Mel-Frequency Cepstral Coefficients (MFCCs) とpre-trained model (PTM) の特徴について検討した。
結合性,付加性,横断性という3つの融合戦略を用いて,両方の特徴型を組み合わせた統合型フレームワークであるFusionVADを提案する。
論文 参考訳(メタデータ) (2025-06-02T06:47:42Z) - Baichuan-Omni-1.5 Technical Report [78.49101296394218]
Baichuan-Omni-1.5は、Omni-modalの理解能力だけでなく、エンドツーエンドのオーディオ生成機能も備えたOmni-modalモデルである。
マルチモーダルデータのための包括的データクリーニングと合成パイプラインを構築し,約500Bの高品質データを取得する。
第二に、音声トケナイザは、音声から意味情報と音響情報をキャプチャし、シームレスな統合とMLLMとの互換性の強化を可能にするように設計されている。
論文 参考訳(メタデータ) (2025-01-26T02:19:03Z) - Computation and Parameter Efficient Multi-Modal Fusion Transformer for
Cued Speech Recognition [48.84506301960988]
Cued Speech (CS) は、聴覚障害者が使用する純粋視覚符号化法である。
自動CS認識(ACSR)は、音声の視覚的手がかりをテキストに書き起こそうとする。
論文 参考訳(メタデータ) (2024-01-31T05:20:29Z) - TIJO: Trigger Inversion with Joint Optimization for Defending Multimodal
Backdoored Models [18.485290653242853]
マルチモーダル・バックドア・ディフェンス技術TIJO (Trigger Inversion using Joint Optimization) を提案する。
最近のarXiv:2112.07668では、視覚質問応答タスクのためのマルチモーダルモデルに対するバックドア攻撃が成功している。
本稿では、画像とテキストの両モードのトリガをリバースエンジニアリングする共同最適化により、デュアルキー攻撃に対する防御を行うTIJOを提案する。
論文 参考訳(メタデータ) (2023-08-07T20:48:07Z) - A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional Emotion Recognition [46.443866373546726]
ビデオから抽出した顔と声の融合に基づく次元的感情認識に焦点を当てた。
本稿では, 相補的関係に依拠し, 有意な特徴を抽出する連係関係モデルを提案する。
提案したA-V融合モデルにより,最先端の手法より優れたコスト効率のソリューションが提供される。
論文 参考訳(メタデータ) (2022-03-28T14:09:43Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。