論文の概要: Complementarity-Supervised Spectral-Band Routing for Multimodal Emotion Recognition
- arxiv url: http://arxiv.org/abs/2603.13340v1
- Date: Sat, 07 Mar 2026 03:58:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.095789
- Title: Complementarity-Supervised Spectral-Band Routing for Multimodal Emotion Recognition
- Title(参考訳): マルチモーダル感情認識のための相補性スーパービジョンスペクトルバンドルーティング
- Authors: Zhexian Huang, Bo Zhao, Hui Ma, Zhishu Liu, Jie Zhang, Ruixin Zhang, Shouhong Ding, Zitong Yu,
- Abstract要約: マルチモーダル感情認識は、テキスト、ビデオ、音声などの手がかりを融合させ、個人の感情状態を理解する。
従来の手法では、機械的に独立な単調なパフォーマンスに依存することと、感情タスクで要求されるきめ細かい表現と相反する粗粒の融合という2つの主な制限に直面していた。
我々は,マルチスケールバンド分解とエキスパートコラボレーションを通じて,微細な相補的特徴をモデル化するために,Atsukoという名前のComplementarity-Supervised Multi-Band Expert Networkを提案する。
- 参考スコア(独自算出の注目度): 60.20529806857076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal emotion recognition fuses cues such as text, video, and audio to understand individual emotional states. Prior methods face two main limitations: mechanically relying on independent unimodal performance, thereby missing genuine complementary contributions, and coarse-grained fusion conflicting with the fine-grained representations required by emotion tasks. As inconsistent information density across heterogeneous modalities hinders inter-modal feature mining, we propose the Complementarity-Supervised Multi-Band Expert Network, named Atsuko, to model fine-grained complementary features via multi-scale band decomposition and expert collaboration. Specifically, we orthogonally decompose each modality's features into high, mid, and low-frequency components. Building upon this band-level routing, we design a modality-level router with a dual-path mechanism for fine-grained cross-band selection and cross-modal fusion. To mitigate shortcut learning from dominant modalities, we propose the Marginal Complementarity Module (MCM) to quantify performance loss when removing each modality via bi-modal comparison. The resulting complementarity distribution provides soft supervision, guiding the router to focus on modalities contributing unique information gains. Extensive experiments show our method achieves superior performance on the CMU-MOSI, CMU-MOSEI, CH-SIMS, CH-SIMSv2, and MIntRec benchmarks.
- Abstract(参考訳): マルチモーダル感情認識は、テキスト、ビデオ、音声などの手がかりを融合させ、個人の感情状態を理解する。
従来の手法では、機械的に独立した単調なパフォーマンスに依存し、真の補完的な貢献を欠いていることと、感情タスクで要求されるきめ細かい表現と相反する粗い粒度の融合という2つの主な制限に直面していた。
異質なモダリティ間の不整合情報密度がモーダル間特徴マイニングを妨げているため,マルチスケールバンド分解とエキスパートコラボレーションを通じて,微細な相補的特徴をモデル化するComplementarity-Supervised Multi-Band Expert Network(Atsuko)を提案する。
具体的には,各モードの特徴を高次成分,中次成分,低周波成分に直交的に分解する。
このバンドレベルのルーティングに基づいて、細粒度クロスバンド選択とクロスモーダル融合のためのデュアルパス機構を備えたモダリティレベルのルータを設計する。
支配的モダリティからのショートカット学習を緩和するため,両モード比較により各モダリティを除去する際の性能損失を定量化するMarginal Complementarity Module (MCM)を提案する。
結果として生じる相補性分布は、ルータをユニークな情報ゲインに寄与するモダリティに集中させる、ソフトな監視を提供する。
本手法はCMU-MOSI, CMU-MOSEI, CH-SIMS, CH-SIMSv2, MIntRecベンチマークにおいて優れた性能を示す。
関連論文リスト
- Modality-Specific Enhancement and Complementary Fusion for Semi-Supervised Multi-Modal Brain Tumor Segmentation [6.302779966909783]
医用画像セグメンテーションのための新しい半教師付きマルチモーダルフレームワークを提案する。
モダリティ固有のエンハンシングモジュール(MEM)を導入し、各モダリティに意味的なユニークな手がかりを強化する。
また,学習可能な相補的情報融合(CIF)モジュールを導入し,モダリティ間の相補的知識を適応的に交換する。
論文 参考訳(メタデータ) (2025-12-10T16:15:17Z) - MM-DETR: An Efficient Multimodal Detection Transformer with Mamba-Driven Dual-Granularity Fusion and Frequency-Aware Modality Adapters [12.063966356953186]
マルチモーダルリモートセンシングオブジェクト検出は、困難条件下でより正確で堅牢な認識を実現することを目的としている。
注意に基づく、あるいは変形可能な畳み込み融合ブロックに依存する既存のアプローチは、依然としてパフォーマンスと軽量設計のバランスをとるのに苦労している。
マルチモーダルオブジェクト検出のための軽量かつ効率的なフレームワークMM-DETRを提案する。
論文 参考訳(メタデータ) (2025-11-29T07:23:01Z) - BiXFormer: A Robust Framework for Maximizing Modality Effectiveness in Multi-Modal Semantic Segmentation [55.486872677160015]
マスクレベルの分類タスクとしてマルチモーダルなセマンティックセグメンテーションを再構成する。
統一モダリティマッチング(UMM)とクロスモダリティアライメント(CMA)を統合したBiXFormerを提案する。
合成および実世界のマルチモーダルベンチマーク実験により,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-06-04T08:04:58Z) - Co-AttenDWG: Co-Attentive Dimension-Wise Gating and Expert Fusion for Multi-Modal Offensive Content Detection [0.0]
マルチモーダル学習は重要な研究の方向性として浮上している。
既存のアプローチは、しばしばクロスモーダル相互作用の不足と固い融合戦略に悩まされる。
本稿では,Co-AttenDWGを提案する。
我々は,Co-AttenDWGが最先端性能と優れたクロスモーダルアライメントを実現することを示す。
論文 参考訳(メタデータ) (2025-05-25T07:26:00Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - A cross-modal fusion network based on self-attention and residual
structure for multimodal emotion recognition [7.80238628278552]
マルチモーダル感情認識のための自己注意構造と残像構造(CFN-SR)に基づく新たなクロスモーダル融合ネットワークを提案する。
提案手法の有効性を検証するため,RAVDESSデータセットを用いて実験を行った。
実験結果から,提案したCFN-SRは最先端技術を実現し,精度が75.76%,パラメータが26.30Mであることが確認された。
論文 参考訳(メタデータ) (2021-11-03T12:24:03Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。