論文の概要: Beyond Simple Fusion: Adaptive Gated Fusion for Robust Multimodal Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2510.01677v1
- Date: Thu, 02 Oct 2025 05:05:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.003597
- Title: Beyond Simple Fusion: Adaptive Gated Fusion for Robust Multimodal Sentiment Analysis
- Title(参考訳): Beyond Simple Fusion: Adaptive Gated Fusion for Robust Multimodal Sentiment Analysis
- Authors: Han Wu, Yanming Sun, Yunhe Yang, Derek F. Wong,
- Abstract要約: textbfAdaptive textbfGated textbfFusion textbfNetwork。
CMU-MOSIとCMU-MOSEIの実験により、AGFNは精度において強いベースラインを著しく上回り、頑健なパフォーマンスを持つ微妙な感情を効果的に識別することを示した。
- 参考スコア(独自算出の注目度): 27.11612547025828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal sentiment analysis (MSA) leverages information fusion from diverse modalities (e.g., text, audio, visual) to enhance sentiment prediction. However, simple fusion techniques often fail to account for variations in modality quality, such as those that are noisy, missing, or semantically conflicting. This oversight leads to suboptimal performance, especially in discerning subtle emotional nuances. To mitigate this limitation, we introduce a simple yet efficient \textbf{A}daptive \textbf{G}ated \textbf{F}usion \textbf{N}etwork that adaptively adjusts feature weights via a dual gate fusion mechanism based on information entropy and modality importance. This mechanism mitigates the influence of noisy modalities and prioritizes informative cues following unimodal encoding and cross-modal interaction. Experiments on CMU-MOSI and CMU-MOSEI show that AGFN significantly outperforms strong baselines in accuracy, effectively discerning subtle emotions with robust performance. Visualization analysis of feature representations demonstrates that AGFN enhances generalization by learning from a broader feature distribution, achieved by reducing the correlation between feature location and prediction error, thereby decreasing reliance on specific locations and creating more robust multimodal feature representations.
- Abstract(参考訳): マルチモーダル感情分析(MSA)は、様々なモーダル(テキスト、音声、視覚など)からの情報融合を利用して、感情予測を強化する。
しかし、単純な融合技術は、ノイズ、欠落、意味的に矛盾するような、モダリティの品質の変化を説明できないことが多い。
この監視は、特に微妙な感情的なニュアンスを識別する際の、最適以下のパフォーマンスをもたらす。
この制限を緩和するために、情報エントロピーとモダリティの重要度に基づく二重ゲート融合機構を用いて特徴量を調整する、単純で効率的な \textbf{A}daptive \textbf{G}ated \textbf{F}usion \textbf{N}etwork を導入する。
このメカニズムはノイズモードの影響を緩和し、一様エンコーディングおよび相互モーダル相互作用による情報的手がかりを優先する。
CMU-MOSIとCMU-MOSEIの実験により、AGFNは精度において強いベースラインを著しく上回り、頑健なパフォーマンスを持つ微妙な感情を効果的に識別することを示した。
特徴表現の可視化解析により、AGFNはより広い特徴分布から学習することで一般化を促進し、特徴位置と予測誤差の相関を減らし、特定の位置への依存を減らし、より堅牢なマルチモーダル特徴表現を生成する。
関連論文リスト
- Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。
モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:39:13Z) - Disentangling Bias by Modeling Intra- and Inter-modal Causal Attention for Multimodal Sentiment Analysis [25.791796193062012]
マルチモーダル感情分析(MSA)は、テキスト、音声、視覚データなどの複数のモーダルからの情報を統合することで、人間の感情を理解することを目的としている。
既存の手法は、しばしばモダリティ内およびモダリティ間の急激な相関に悩まされ、モデルが真の因果関係ではなく統計的ショートカットに依存するようになる。
本稿では,マルチリレーショナルマルチモーダル因果干渉(MMCI)モデルを提案する。
論文 参考訳(メタデータ) (2025-08-07T03:24:04Z) - Learning to Fuse: Modality-Aware Adaptive Scheduling for Robust Multimodal Foundation Models [0.0]
モーダリティ・アウェア・アダプティブ・フュージョン・スケジューリング(MA-AFS)は、各モーダリティの寄与をインスタンス単位で動的に調節することを学ぶ。
本研究は, 適応融合の重要性を強調し, 信頼性と不確実性を考慮したマルチモーダル学習に向けた有望な方向性を開く。
論文 参考訳(メタデータ) (2025-06-15T05:57:45Z) - Reducing Unimodal Bias in Multi-Modal Semantic Segmentation with Multi-Scale Functional Entropy Regularization [66.10528870853324]
高精度な予測タスクのための新しいセンサからのマルチモーダル入力の再利用とバランスが重要である。
1つの大きな制限は、マルチモーダルフレームワークが容易に学習可能なモダリティに過度に依存する傾向があることである。
本稿では,機能的エントロピーに基づくプラグ・アンド・プレイ正規化項を提案する。
論文 参考訳(メタデータ) (2025-05-10T12:58:15Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Learning Prompt-Enhanced Context Features for Weakly-Supervised Video
Anomaly Detection [37.99031842449251]
弱い監督下での映像異常検出は重大な課題を呈する。
本稿では,効率的なコンテキストモデリングとセマンティック識別性の向上に焦点をあてた,弱教師付き異常検出フレームワークを提案する。
提案手法は,特定の異常なサブクラスの検出精度を大幅に向上させ,その実用的価値と有効性を裏付けるものである。
論文 参考訳(メタデータ) (2023-06-26T06:45:16Z) - Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文 参考訳(メタデータ) (2022-09-14T22:04:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。