論文の概要: Towards Explainable Fusion and Balanced Learning in Multimodal Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2504.12151v1
- Date: Wed, 16 Apr 2025 15:00:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 14:36:53.837204
- Title: Towards Explainable Fusion and Balanced Learning in Multimodal Sentiment Analysis
- Title(参考訳): マルチモーダル感性分析における説明可能な融合とバランス学習に向けて
- Authors: Miaosen Luo, Yuncheng Jiang, Sijie Mai,
- Abstract要約: Kan-MCP は Kolmogorov-Arnold Networks (KAN) の解釈可能性と Multimodal Clean Pareto (MCPareto) フレームワークの堅牢性を統合する新しいフレームワークである。
本稿では, 特徴量次元を両立・縮小するDRD-MIB法を提案する。
この解釈可能性と堅牢性の相乗効果は、CMU-MOSI、CMU-MOSEI、CH-SIMS v2などのベンチマークデータセットにおいて優れたパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 14.029574339845476
- License:
- Abstract: Multimodal Sentiment Analysis (MSA) faces two critical challenges: the lack of interpretability in the decision logic of multimodal fusion and modality imbalance caused by disparities in inter-modal information density. To address these issues, we propose KAN-MCP, a novel framework that integrates the interpretability of Kolmogorov-Arnold Networks (KAN) with the robustness of the Multimodal Clean Pareto (MCPareto) framework. First, KAN leverages its univariate function decomposition to achieve transparent analysis of cross-modal interactions. This structural design allows direct inspection of feature transformations without relying on external interpretation tools, thereby ensuring both high expressiveness and interpretability. Second, the proposed MCPareto enhances robustness by addressing modality imbalance and noise interference. Specifically, we introduce the Dimensionality Reduction and Denoising Modal Information Bottleneck (DRD-MIB) method, which jointly denoises and reduces feature dimensionality. This approach provides KAN with discriminative low-dimensional inputs to reduce the modeling complexity of KAN while preserving critical sentiment-related information. Furthermore, MCPareto dynamically balances gradient contributions across modalities using the purified features output by DRD-MIB, ensuring lossless transmission of auxiliary signals and effectively alleviating modality imbalance. This synergy of interpretability and robustness not only achieves superior performance on benchmark datasets such as CMU-MOSI, CMU-MOSEI, and CH-SIMS v2 but also offers an intuitive visualization interface through KAN's interpretable architecture.
- Abstract(参考訳): マルチモーダル・センティメント・アナリティクス(MSA)は、マルチモーダル・フュージョンの決定論理における解釈可能性の欠如と、モーダル間情報密度の格差に起因するモダリティの不均衡の2つの重要な課題に直面している。
そこで我々は,Kan-MCPを提案する。Kan-MCPはKolmogorov-Arnold Networks(KAN)の解釈可能性と,MCPareto(Multimodal Clean Pareto)フレームワークの堅牢性を統合した新しいフレームワークである。
第一に、カンはその単変量関数分解を利用して、クロスモーダル相互作用の透過的な解析を実現する。
この構造設計により、外部解釈ツールに頼ることなく、特徴変換を直接検査することができ、高い表現性と解釈可能性の両方を確保することができる。
第二に、提案したMPPアレートは、モダリティの不均衡とノイズ干渉に対処することでロバスト性を高める。
具体的には,特徴量次元を両立・縮小するDRD-MIB法を提案する。
このアプローチは、感傷的情報を保持しながら、カンのモデリングの複雑さを低減するために、感傷的低次元入力を提供する。
さらに、MDD-MIBが出力する精製特徴を用いて、モダリティ間の勾配寄与を動的にバランスさせ、補助信号のロスレス伝送を確実にし、モダリティの不均衡を効果的に緩和する。
この解釈可能性と堅牢性の相乗効果は、CMU-MOSI、CMU-MOSEI、CH-SIMS v2などのベンチマークデータセット上での優れたパフォーマンスを達成するだけでなく、Kaninの解釈可能なアーキテクチャによる直感的な視覚化インターフェースも提供する。
関連論文リスト
- Modality-Invariant Bidirectional Temporal Representation Distillation Network for Missing Multimodal Sentiment Analysis [6.15602203132432]
モダリティ不変な双方向時間表現蒸留ネットワーク(MITR-DNet)を導入する。
MITR-DNetは蒸留方式を採用しており、完全なモダリティの教師モデルは、モダリティの学生モデルが欠けていることをガイドし、モダリティの欠如の有無で堅牢性を確保する。
論文 参考訳(メタデータ) (2025-01-07T07:57:16Z) - Divide-and-Conquer: Confluent Triple-Flow Network for RGB-T Salient Object Detection [70.84835546732738]
RGB-Thermal Salient Object Detectionは、目視と熱赤外画像のペア内の目立つ物体をピンポイントすることを目的としている。
従来のエンコーダ・デコーダアーキテクチャは、欠陥モードから生じるノイズに対する頑健さを十分に考慮していなかったかもしれない。
本稿では,Divide-and-Conquer戦略を用いた,堅牢なConfluent Triple-Flow NetworkであるConTriNetを提案する。
論文 参考訳(メタデータ) (2024-12-02T14:44:39Z) - What Do VLMs NOTICE? A Mechanistic Interpretability Pipeline for Gaussian-Noise-free Text-Image Corruption and Evaluation [16.033361754660316]
視覚言語モデル(VLM)における可読性評価パイプライン
SVO-Probes、MIT-States、Facial Expression Recognitionデータセットに関する実験により、VLM意思決定における重要な洞察が明らかになった。
この研究は、より透明で解釈可能なマルチモーダルシステムへの道を開いた。
論文 参考訳(メタデータ) (2024-06-24T05:13:19Z) - DA-Flow: Dual Attention Normalizing Flow for Skeleton-based Video Anomaly Detection [52.74152717667157]
本稿では,DAM(Dual Attention Module)と呼ばれる軽量モジュールを提案する。
フレームアテンション機構を使用して、最も重要なフレームを識別し、スケルトンアテンション機構を使用して、最小パラメータとフロップで固定されたパーティション間の広範な関係をキャプチャする。
論文 参考訳(メタデータ) (2024-06-05T06:18:03Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - Modality-Collaborative Transformer with Hybrid Feature Reconstruction
for Robust Emotion Recognition [35.15390769958969]
ハイブリッド特徴再構成(MCT-HFR)を用いた統一型モダリティ協調変換器を提案する。
MCT-HFRは、モダリティ内およびモダリティ間関係を同時に抽出し、動的にバランスをとる新しいアテンションベースのエンコーダで構成されている。
モデルトレーニング中、LFIは、完全特徴を監督信号として活用し、局所的欠落した特徴を回復する一方、GFAはペア完全表現と不完全表現のグローバルな意味的ギャップを減らすように設計されている。
論文 参考訳(メタデータ) (2023-12-26T01:59:23Z) - Synergistic Signal Denoising for Multimodal Time Series of Structure
Vibration [9.144905626316534]
本稿では,構造的健康モニタリング(SHM)で広く用いられているマルチモーダル振動信号に固有の複雑さに適した,新しいディープラーニングアルゴリズムを提案する。
畳み込みと再帰的なアーキテクチャの融合により、アルゴリズムは局所化と長期化の両方の構造挙動を順応的にキャプチャする。
以上の結果から,複数のSHMシナリオにおける予測精度,早期損傷検出,適応性に有意な改善が認められた。
論文 参考訳(メタデータ) (2023-08-17T00:41:50Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。