論文の概要: Multi-level Conflict-Aware Network for Multi-modal Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2502.09675v1
- Date: Thu, 13 Feb 2025 09:14:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:48:46.322083
- Title: Multi-level Conflict-Aware Network for Multi-modal Sentiment Analysis
- Title(参考訳): マルチモード感性分析のためのマルチレベルコンフリクト・アウェアネットワーク
- Authors: Yubo Gao, Haotian Wu, Lei Zhang,
- Abstract要約: マルチモーダル感情分析のための新しいマルチレベルコンフリクト・アウェア・ネットワーク(MCAN)を提案する。
MCANは段階的にアライメントとコンフリクトの構成要素を、一様および二様表現から分離する。
コンフリクトモデリングブランチでは、表現レベルと予測出力レベルの両方で差分制約を行う。
- 参考スコア(独自算出の注目度): 6.168616672805216
- License:
- Abstract: Multimodal Sentiment Analysis (MSA) aims to recognize human emotions by exploiting textual, acoustic, and visual modalities, and thus how to make full use of the interactions between different modalities is a central challenge of MSA. Interaction contains alignment and conflict aspects. Current works mainly emphasize alignment and the inherent differences between unimodal modalities, neglecting the fact that there are also potential conflicts between bimodal combinations. Additionally, multi-task learning-based conflict modeling methods often rely on the unstable generated labels. To address these challenges, we propose a novel multi-level conflict-aware network (MCAN) for multimodal sentiment analysis, which progressively segregates alignment and conflict constituents from unimodal and bimodal representations, and further exploits the conflict constituents with the conflict modeling branch. In the conflict modeling branch, we conduct discrepancy constraints at both the representation and predicted output levels, avoiding dependence on the generated labels. Experimental results on the CMU-MOSI and CMU-MOSEI datasets demonstrate the effectiveness of the proposed MCAN.
- Abstract(参考訳): マルチモーダル・センティメント・アナリティクス(MSA)は、テキスト、音響、視覚のモダリティを利用して人間の感情を認識することを目的としており、様々なモダリティ間の相互作用をフルに活用する方法は、MSAの重要な課題である。
相互作用にはアライメントとコンフリクトの側面が含まれる。
現在の研究は、主に単調なモダリティ間のアライメントと固有の相違を強調し、双モーダルの組み合わせの間にも潜在的な衝突があるという事実を無視している。
さらに、マルチタスク学習に基づく競合モデリング手法は不安定なラベルに依存することが多い。
これらの課題に対処するため,マルチモーダル感情分析のための新しいマルチレベルコンフリクト・アウェア・ネットワーク(MCAN)を提案し,非モーダル・バイモーダル表現からアライメントとコンフリクトを段階的に分離し,コンフリクト・モデリング・ブランチとのコンフリクト・コンフィグメントを更に活用する。
コンフリクトモデリングブランチでは、表現レベルと予測出力レベルの両方で差分制約を行い、生成されたラベルへの依存を避ける。
CMU-MOSIとCMU-MOSEIデータセットの実験結果から,提案したMCANの有効性が示された。
関連論文リスト
- Insight Over Sight? Exploring the Vision-Knowledge Conflicts in Multimodal LLMs [55.74117540987519]
本稿では,マルチモーダル大言語モデル(MLLM)におけるコモンセンスレベルの視覚知識衝突の問題について考察する。
MLLMのコンフリクトのシミュレーションと評価を目的としたベンチマークを確立するため,人間のループ品質制御を付加した自動パイプラインを導入する。
各種モデルファミリーにおける9つの代表MLLMのコンフリクト分解能を評価し,テキストクエリに顕著なオーバー信頼度を求める。
論文 参考訳(メタデータ) (2024-10-10T17:31:17Z) - ECon: On the Detection and Resolution of Evidence Conflicts [56.89209046429291]
大規模言語モデル(LLM)の台頭は意思決定システムにおける情報の質に大きな影響を与えている。
本研究では,実世界の誤情報シナリオをシミュレートするために,多様で検証された証拠衝突を生成する手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T07:41:17Z) - Unraveling Cross-Modality Knowledge Conflicts in Large Vision-Language Models [33.76903352835436]
LVLM(Large Vision-Language Models)は、マルチモーダル入力をキャプチャし、推論する能力を示す。
これらのモデルは、そのビジョンと言語コンポーネント間の表現された知識の不整合から生じるパラメトリックな知識の衝突を招きやすい。
我々は、それらを検出し、解釈し、緩和するための体系的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-04T17:59:28Z) - AdaCAD: Adaptively Decoding to Balance Conflicts between Contextual and Parametric Knowledge [57.66282463340297]
知識の衝突は、大きな言語モデル(LLM)の文脈における情報と、そのパラメータに格納された知識との相違から生じる。
コンフリクトの度合いに基づいて動的に調整の重みを推定する,AdaCADと呼ばれる細粒度なインスタンスレベルのアプローチを提案する。
論文 参考訳(メタデータ) (2024-09-11T16:35:18Z) - Probing the Robustness of Vision-Language Pretrained Models: A Multimodal Adversarial Attack Approach [30.9778838504609]
トランスを用いた視覚言語事前学習は、多数のマルチモーダルタスクにおいて例外的な性能を示した。
既存のマルチモーダルアタック手法は、視覚とテキストのモダリティ間のクロスモーダルな相互作用をほとんど見落としている。
本稿では,視覚的・テキスト的両モードの対向的摂動を同時に導入する,JMTFA(Joint Multimodal Transformer Feature Attack)を提案する。
論文 参考訳(メタデータ) (2024-08-24T04:31:37Z) - Tracing Intricate Cues in Dialogue: Joint Graph Structure and Sentiment Dynamics for Multimodal Emotion Recognition [37.12407597998884]
マルチモーダル対話における複雑な感情的手がかりを追跡するために,GraphSmileという新しい手法が提案されている。
GraphSmileは2つの重要なコンポーネント、すなわちGSFとSDPモジュールから構成される。
複数のベンチマークにおける実証的な結果は、GraphSmileが複雑な感情的および感情的パターンを処理可能であることを示している。
論文 参考訳(メタデータ) (2024-07-31T11:47:36Z) - Evaluation of data inconsistency for multi-modal sentiment analysis [20.332527596452625]
感情意味の不整合は、マルチモーダル感情分析におけるユビキタスな課題である。
本研究は、新たな課題を提示し、感情分析システムの今後の発展に有用な洞察を提供する。
論文 参考訳(メタデータ) (2024-06-05T07:11:56Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - MISA: Modality-Invariant and -Specific Representations for Multimodal
Sentiment Analysis [48.776247141839875]
本稿では,2つの異なる部分空間に各モダリティを投影する新しいフレームワーク MISA を提案する。
最初の部分空間はモダリティ不変(modality-invariant)であり、モダリティにまたがる表現はその共通点を学び、モダリティギャップを減少させる。
一般的な感情分析ベンチマークであるMOSIとMOSEIの実験は、最先端モデルよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2020-05-07T15:13:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。