論文の概要: A Conflict-Aware Penalty and Statistical Loss Framework for Balancing Modalities and Enhancing Stability in Multimodal Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2605.28575v1
- Date: Wed, 27 May 2026 14:59:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.134054
- Title: A Conflict-Aware Penalty and Statistical Loss Framework for Balancing Modalities and Enhancing Stability in Multimodal Sentiment Analysis
- Title(参考訳): マルチモーダル感性分析におけるモダリティバランスと安定性向上のための紛争対応型罰則と統計的損失枠組
- Authors: Jianheng Dai, Jiazhang Liang, Sijie Mai,
- Abstract要約: マルチモーダル・センティメント・アナリティクス(MSA)は、感情を推測するためにテキスト、音響、視覚ストリームを融合させる。
CP(Conflict-aware Penalty)は、各トレーニングステップで勾配規範の衝突を検出し、罰する。
予測分布統計と経験的入力統計を一致させる統計損失(SL)。
- 参考スコア(独自算出の注目度): 5.633079277770022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Sentiment Analysis (MSA) fuses text, acoustic, and visual streams to infer sentiment. Because pre-trained text encoders are far more expressive than their acoustic and visual counterparts, the text modality tends to dominate optimization, suppressing weaker modalities and inducing gradient norm conflicts that destabilize training. To address this, we propose a Conflict-aware Penalty (CP) that detects and penalizes gradient norm conflicts at each training step, and a Statistical Loss (SL) that aligns predicted distribution statistics with empirical input statistics. Crucially, CP prevents dominant modality gradients from interfering with the SL objective, enabling synergistic training within a unified framework incorporating adaptive modality encoding, gated cross-modal fusion, and unimodal auxiliary heads. Experiments on CMU-MOSI demonstrate state-of-the-art performance, with ablation studies confirming the effectiveness of each component.
- Abstract(参考訳): マルチモーダル・センティメント・アナリティクス(MSA)は、感情を推測するためにテキスト、音響、視覚ストリームを融合させる。
事前学習されたテキストエンコーダは、その音響的および視覚的エンコーダよりもはるかに表現力が高いため、テキストモダリティは最適化を支配し、より弱いモダリティを抑え、トレーニングを不安定にする勾配ノルムコンフリクトを誘導する傾向にある。
そこで本研究では,各学習段階における勾配規範の衝突を検知し,ペナルティ化する競合対応刑法(CP)と,予測分布統計と経験的入力統計とを一致させる統計的損失法(SL)を提案する。
重要なこととして、CPはSLの目的に干渉する支配的モダリティ勾配を防止し、適応的モダリティ符号化、ゲート型クロスモーダル融合、および非モダル補助ヘッドを組み込んだ統合フレームワーク内での相乗的訓練を可能にする。
CMU-MOSIの実験は最先端の性能を示し、アブレーション研究により各コンポーネントの有効性が確認された。
関連論文リスト
- Mitigating Error Amplification in Fast Adversarial Training [58.74042726356826]
FAT(Fast Adversarial Training)は、ネットワークに摂動不変表現の学習を促すことによって、モデルロバスト性の向上に有効であることが証明されている。
FATは、しばしば破滅的なオーバーフィッティング(CO)に悩まされ、モデルがトレーニングアタックに過度に適合し、目に見えないものへの一般化に失敗する。
本稿では、摂動予算と監視信号の両方を動的に調整する分散対応動的ガイダンス(DDG)戦略を提案する。
論文 参考訳(メタデータ) (2026-04-27T11:23:18Z) - BROTHER: Behavioral Recognition Optimized Through Heterogeneous Ensemble Regularization for Ambivalence and Hesitancy [39.407739937584104]
自然主義的なビデオ設定におけるA/H(Ambivalence and Hesitancy)は、感情コンピューティングにおいて重要な課題である。
ビデオレベルでのA/H予測のために,高度に正規化されたマルチモーダル融合パイプラインを提案する。
論文 参考訳(メタデータ) (2026-03-15T12:53:41Z) - Beyond Simple Fusion: Adaptive Gated Fusion for Robust Multimodal Sentiment Analysis [27.11612547025828]
textbfAdaptive textbfGated textbfFusion textbfNetwork。
CMU-MOSIとCMU-MOSEIの実験により、AGFNは精度において強いベースラインを著しく上回り、頑健なパフォーマンスを持つ微妙な感情を効果的に識別することを示した。
論文 参考訳(メタデータ) (2025-10-02T05:05:41Z) - Perception-Consistency Multimodal Large Language Models Reasoning via Caption-Regularized Policy Optimization [72.30168853571216]
マルチモーダルな言語モデルは、視覚知覚と象徴的推論を統合するタスクに優れています。
CapPO は,(1) 原画像上の条件付き応答とキャプション上の条件付き応答のばらつきを最小限に抑えるキャプションベース整合性正規化,(2) KL 重み付き優位性推定スキームを適応的に拡張して知覚整合性トラジェクトリを強化するキャプションベース整合性正規化という2つの重要なメカニズムを統合した。
論文 参考訳(メタデータ) (2025-09-26T04:32:26Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction [0.0]
動的しきい値キャリブレーションとクロスモーダル整合性検証を統合したモデル非依存不確実性定量化法を提案する。
このフレームワークは、様々なキャリブレーションとテストの分割比で安定したパフォーマンスを実現し、医療、自律システム、その他の安全に敏感な領域における現実的な展開の堅牢性を強調している。
この研究は、マルチモーダルAIシステムにおける理論的信頼性と実用性の間のギャップを埋め、幻覚検出と不確実性を考慮した意思決定のためのスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-24T15:39:46Z) - Disentangled Noisy Correspondence Learning [56.06801962154915]
クロスモーダル検索は、モダリティ間の潜在対応を理解する上で重要である。
DisNCLはノイズ対応学習における特徴分散のための新しい情報理論フレームワークである。
論文 参考訳(メタデータ) (2024-08-10T09:49:55Z) - PAIF: Perception-Aware Infrared-Visible Image Fusion for Attack-Tolerant
Semantic Segmentation [50.556961575275345]
対向シーンにおけるセグメンテーションの堅牢性を促進するための認識認識型融合フレームワークを提案する。
我々は,先進の競争相手に比べて15.3% mIOUの利得で,ロバスト性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-08-08T01:55:44Z) - Learning Prompt-Enhanced Context Features for Weakly-Supervised Video
Anomaly Detection [37.99031842449251]
弱い監督下での映像異常検出は重大な課題を呈する。
本稿では,効率的なコンテキストモデリングとセマンティック識別性の向上に焦点をあてた,弱教師付き異常検出フレームワークを提案する。
提案手法は,特定の異常なサブクラスの検出精度を大幅に向上させ,その実用的価値と有効性を裏付けるものである。
論文 参考訳(メタデータ) (2023-06-26T06:45:16Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。