論文の概要: Robust Multimodal Sentiment Analysis via Double Information Bottleneck
- arxiv url: http://arxiv.org/abs/2511.01444v1
- Date: Mon, 03 Nov 2025 10:52:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.226921
- Title: Robust Multimodal Sentiment Analysis via Double Information Bottleneck
- Title(参考訳): ダブルインフォメーション・ボトルネックによるロバストマルチモーダル感性解析
- Authors: Huiting Huang, Tieliang Gong, Kai He, Jialun Wu, Erik Cambria, Mengling Feng,
- Abstract要約: マルチモーダル感情分析は様々な研究領域で注目されている。
既存のアプローチでは、ノイズに汚染された単調なデータの学習が不十分である。
本稿では,Double Information Bottleneck(DIB)戦略を提案する。
- 参考スコア(独自算出の注目度): 55.32835720742616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal sentiment analysis has received significant attention across diverse research domains. Despite advancements in algorithm design, existing approaches suffer from two critical limitations: insufficient learning of noise-contaminated unimodal data, leading to corrupted cross-modal interactions, and inadequate fusion of multimodal representations, resulting in discarding discriminative unimodal information while retaining multimodal redundant information. To address these challenges, this paper proposes a Double Information Bottleneck (DIB) strategy to obtain a powerful, unified compact multimodal representation. Implemented within the framework of low-rank Renyi's entropy functional, DIB offers enhanced robustness against diverse noise sources and computational tractability for high-dimensional data, as compared to the conventional Shannon entropy-based methods. The DIB comprises two key modules: 1) learning a sufficient and compressed representation of individual unimodal data by maximizing the task-relevant information and discarding the superfluous information, and 2) ensuring the discriminative ability of multimodal representation through a novel attention bottleneck fusion mechanism. Consequently, DIB yields a multimodal representation that effectively filters out noisy information from unimodal data while capturing inter-modal complementarity. Extensive experiments on CMU-MOSI, CMU-MOSEI, CH-SIMS, and MVSA-Single validate the effectiveness of our method. The model achieves 47.4% accuracy under the Acc-7 metric on CMU-MOSI and 81.63% F1-score on CH-SIMS, outperforming the second-best baseline by 1.19%. Under noise, it shows only 0.36% and 0.29% performance degradation on CMU-MOSI and CMU-MOSEI respectively.
- Abstract(参考訳): マルチモーダル感情分析は様々な研究領域で注目されている。
アルゴリズム設計の進歩にもかかわらず、既存のアプローチには2つの重要な制限がある: ノイズに汚染された非モーダルデータの学習が不十分なため、破損した相互モーダルの相互作用が得られず、マルチモーダル表現の融合が不十分なため、マルチモーダル冗長情報を保持しながら識別的非モーダル情報を破棄する。
これらの課題に対処するため,本稿では,強力なコンパクトマルチモーダル表現を実現するためのDouble Information Bottleneck(DIB)戦略を提案する。
低ランクレニーのエントロピー関数の枠組みで実装されたDIBは、従来のシャノンエントロピー法と比較して、多様なノイズ源に対する強靭性と高次元データに対する計算的トラクタビリティを提供する。
DIBは2つの主要なモジュールから構成される。
1)タスク関連情報を最大化し、過剰情報を捨てることにより、各単項データの十分かつ圧縮された表現を学習し、
2) 新しい注目ボトルネック融合機構によるマルチモーダル表現の識別能力の確保。
その結果、DIBは、モーダル間の相補性を捕捉しながら、非モーダルデータからノイズ情報を効果的にフィルタリングするマルチモーダル表現が得られる。
CMU-MOSI, CMU-MOSEI, CH-SIMS, MVSA-Singleの大規模実験により, 本手法の有効性が検証された。
このモデルはCMU-MOSIのAcc-7測定値で47.4%、CH-SIMSのF1スコアで81.63%の精度を達成し、第2位のベースラインを1.19%上回った。
ノイズ下では、CMU-MOSIとCMU-MOSEIでそれぞれ0.36%と0.29%の性能劣化しか示さない。
関連論文リスト
- Multimodal Representation-disentangled Information Bottleneck for Multimodal Recommendation [36.338586087343806]
我々はMRdIB(Multimodal Representation-disentangled Information Bottleneck)という新しいフレームワークを提案する。
具体的には,まず,入力表現を圧縮するためにマルチモーダル・インフォメーション・ボトルネックを用いる。
そして,レコメンデーションターゲットとの関係に基づいて,情報をユニークで冗長な,シナジスティックなコンポーネントに分解する。
論文 参考訳(メタデータ) (2025-09-24T15:18:32Z) - Multi-Modal Dataset Distillation in the Wild [75.64263877043615]
そこで我々は,マルチモーダル・データセット蒸留法(MDW)を提案し,ノイズの多いマルチモーダル・データセットをコンパクトなクリーン・データセットに蒸留し,効果的かつ効率的なモデルトレーニングを行う。
具体的には、MDWは蒸留中の学習可能な微粒な対応を導入し、蒸留されたデータを適応的に最適化し、対応識別領域を強調する。
MDWの理論的および経験的有効性は、様々な圧縮比で従来の手法を15%以上上回る、顕著なスケーラビリティで検証されている。
論文 参考訳(メタデータ) (2025-06-02T12:18:20Z) - Benchmarking Multi-modal Semantic Segmentation under Sensor Failures: Missing and Noisy Modality Robustness [61.87055159919641]
マルチモーダルセマンティックセグメンテーション(MMSS)は、モーダル間で補完情報を統合することで、単一モーダルデータの制限に対処する。
顕著な進歩にもかかわらず、マルチモーダルデータ品質の変動と不確実性により、研究と実世界の展開の間に大きなギャップが持続する。
Intire-Missing Modality (EMM)、Random-Missing Modality (RMM)、Noisy Modality (NM)の3つのシナリオでMMSSモデルを評価する頑健性ベンチマークを導入する。
論文 参考訳(メタデータ) (2025-03-24T08:46:52Z) - Dynamic Multimodal Information Bottleneck for Multimodality
Classification [26.65073424377933]
本稿では,頑健な融合特徴表現を実現するための動的マルチモーダル情報ボトルネックフレームワークを提案する。
具体的には、情報ボトルネックモジュールは、融合機能におけるタスク関連情報やノイズをフィルタリングするのに役立ちます。
提案手法は最先端の手法を超越し, 大規模ノイズチャネルが存在する場合, 性能を維持できる唯一の手法である。
論文 参考訳(メタデータ) (2023-11-02T08:34:08Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Multi-Modal Mutual Information Maximization: A Novel Approach for
Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。
モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。
提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2021-12-13T08:58:03Z) - Which is Making the Contribution: Modulating Unimodal and Cross-modal
Dynamics for Multimodal Sentiment Analysis [18.833050804875032]
マルチモーダル感情分析(MSA)は、マルチモーダルデータの利用により注目される。
最近のMSAは、主にクロスモーダル力学の学習に重点を置いているが、ユニモーダルネットワークの最適解を探すことは無視されている。
MSAフレームワーク textbfModulation textbfModel for textbfMultimodal textbfSentiment textbfAnalysisを提案する。
論文 参考訳(メタデータ) (2021-11-10T03:29:17Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。