論文の概要: Enhance-then-Balance Modality Collaboration for Robust Multimodal Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2604.12518v2
- Date: Sun, 19 Apr 2026 08:18:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 13:51:31.102894
- Title: Enhance-then-Balance Modality Collaboration for Robust Multimodal Sentiment Analysis
- Title(参考訳): 頑健なマルチモーダル感性分析のためのエンハンス・ザ・バラン・モダリティ協調
- Authors: Kang He, Yuzhe Ding, Xinrong Wang, Fei Li, Chong Teng, Donghong Ji,
- Abstract要約: マルチモーダル感情分析は、異種テキスト、音声、視覚信号を統合し、人間の感情を推測する。
実際には、支配的なモダリティは非言語的なモダリティを覆し、モダリティ競争を誘発し、全体的な貢献を制限する傾向にある。
我々は,新しいモデル,Enhance-then-Balance Modality Collaboration framework (EBMC)を提案する。
EBMCはセマンティック・ディコンタングルメントとクロスモーダル・エンハンスメントを通じて表現品質を改善し、より弱いモダリティを強化する。
- 参考スコア(独自算出の注目度): 24.799994408836895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal sentiment analysis (MSA) integrates heterogeneous text, audio, and visual signals to infer human emotions. While recent approaches leverage cross-modal complementarity, they often struggle to fully utilize weaker modalities. In practice, dominant modalities tend to overshadow non-verbal ones, inducing modality competition and limiting overall contributions. This imbalance degrades fusion performance and robustness under noisy or missing modalities. To address this, we propose a novel model, Enhance-then-Balance Modality Collaboration framework (EBMC). EBMC improves representation quality via semantic disentanglement and cross-modal enhancement, strengthening weaker modalities. To prevent dominant modalities from overwhelming others, an Energy-guided Modality Coordination mechanism achieves implicit gradient rebalancing via a differentiable equilibrium objective. Furthermore, Instance-aware Modality Trust Distillation estimates sample-level reliability to adaptively modulate fusion weights, ensuring robustness. Extensive experiments demonstrate that EBMC achieves state-of-the-art or competitive results and maintains strong performance under missing-modality settings.
- Abstract(参考訳): マルチモーダル感情分析(MSA)は、異種テキスト、音声、視覚信号を統合し、人間の感情を推測する。
近年のアプローチでは、クロスモーダルな相補性を利用するが、弱いモダリティを完全に活用するのに苦労することが多い。
実際には、支配的なモダリティは非言語的なモダリティを覆し、モダリティ競争を誘発し、全体的な貢献を制限する傾向にある。
この不均衡は、ノイズまたは欠落モード下での核融合性能とロバスト性を低下させる。
そこで我々は,新しいモデルであるEnhance-then-Balance Modality Collaboration framework (EBMC)を提案する。
EBMCはセマンティック・ディコンタングルメントとクロスモーダル・エンハンスメントを通じて表現品質を改善し、より弱いモダリティを強化する。
支配的なモダリティが他を圧倒するのを防ぐため、エネルギー誘導モードコーディネート機構は、微分可能な平衡目標を介して暗黙の勾配リバランシングを実現する。
さらに、インスタンス対応モダリティトラスト蒸留は、試料レベルの信頼性を推定し、融合重量を適応的に調整し、堅牢性を確保する。
広範な実験により、EBMCは最先端または競争的な結果を達成し、欠落したモダリティ設定下での強い性能を維持することが示されている。
関連論文リスト
- Progressive Representation Learning for Multimodal Sentiment Analysis with Incomplete Modalities [26.613566093134065]
マルチモーダル・センティメント・アナリティクスは、テキスト、音響、視覚的手がかりを統合することで人間の感情を推測する。
既存のアプローチでは、すべてのモダリティが完全であるのに対して、現実のアプリケーションは、ノイズやハードウェアの障害、あるいはモダリティの欠如につながるプライバシー制限にしばしば遭遇する。
我々は、不確実なモダリティ条件下でMSA用に設計されたプログレッシブ表現学習フレームワークPRLFを提案する。
論文 参考訳(メタデータ) (2026-03-10T02:45:02Z) - Modality-Balanced Collaborative Distillation for Multi-Modal Domain Generalization [72.83292830785336]
ウェイト平均化 (WA) は, 平坦な損失景観への収束を促進することによって, 一般化を促進する強力な手法として登場した。
マルチモーダル環境での欠点を克服しつつ,WAの平坦性に起因した優位性を保ちつつ,統一的な共同蒸留フレームワークMBCDを提案する。
論文 参考訳(メタデータ) (2025-11-25T12:38:28Z) - Harnessing Consistency for Robust Test-Time LLM Ensemble [88.55393815158608]
CoREは、堅牢なLLMアンサンブルにモデル一貫性を利用するプラグイン・アンド・プレイ技術である。
トークンレベルの一貫性は、ダウンウェイト不確実なトークンにローパスフィルタを適用することで、きめ細かい不一致を捕捉する。
モデルレベルの一貫性は、自己自信の高いモデル出力を促進することで、グローバルな合意をモデル化する。
論文 参考訳(メタデータ) (2025-10-12T04:18:45Z) - Robust Multimodal Semantic Segmentation with Balanced Modality Contributions [13.322334965026684]
モダリティの等価符号化によるモダリティ貢献のバランスをとるフレームワークであるEQUISegを提案する。
本研究では,EQUISegが性能向上を実現し,セグメンテーションタスクにおけるモダリティの不均衡の悪影響を効果的に軽減することを示す。
論文 参考訳(メタデータ) (2025-09-29T09:19:10Z) - AIM: Adaptive Intra-Network Modulation for Balanced Multimodal Learning [55.56234913868664]
そこで我々は,適応型ネットワーク内変調(AIM)を提案し,バランスの取れたモダリティ学習を改善する。
AIMは、変調中のネットワーク内のパラメータと深さの最適化状態の違いを考慮に入れている。
AIMは、複数のベンチマークにおいて、最先端の非バランスなモダリティ学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-27T10:53:36Z) - Learning to Fuse: Modality-Aware Adaptive Scheduling for Robust Multimodal Foundation Models [0.0]
モーダリティ・アウェア・アダプティブ・フュージョン・スケジューリング(MA-AFS)は、各モーダリティの寄与をインスタンス単位で動的に調節することを学ぶ。
本研究は, 適応融合の重要性を強調し, 信頼性と不確実性を考慮したマルチモーダル学習に向けた有望な方向性を開く。
論文 参考訳(メタデータ) (2025-06-15T05:57:45Z) - Modality Equilibrium Matters: Minor-Modality-Aware Adaptive Alternating for Cross-Modal Memory Enhancement [13.424541949553964]
そこで本研究では,微調整を適応的に優先順位付けしてバランスを保ち,融合を促進させるシェープリー誘導型交互訓練フレームワークを提案する。
我々は4つのマルチモーダル・ベンチマーク・データセットのバランスと精度の両面での性能評価を行い,その手法がSOTA(State-of-the-art)の結果を達成した。
論文 参考訳(メタデータ) (2025-05-26T02:02:57Z) - Asymmetric Reinforcing against Multi-modal Representation Bias [59.685072206359855]
マルチモーダル表現バイアス(ARM)に対する非対称強化法を提案する。
我々のARMは、条件付き相互情報を通じて支配的なモダリティを表現する能力を維持しながら、弱いモダリティを動的に強化する。
我々はマルチモーダル学習の性能を著しく改善し、不均衡なマルチモーダル学習の軽減に顕著な進展をもたらした。
論文 参考訳(メタデータ) (2025-01-02T13:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。