論文の概要: Towards Robust Multimodal Sentiment Analysis with Incomplete Data
- arxiv url: http://arxiv.org/abs/2409.20012v2
- Date: Fri, 1 Nov 2024 08:40:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 16:08:18.084428
- Title: Towards Robust Multimodal Sentiment Analysis with Incomplete Data
- Title(参考訳): 不完全データを用いたロバストマルチモーダル感性分析に向けて
- Authors: Haoyu Zhang, Wenbin Wang, Tianshu Yu,
- Abstract要約: 頑健なマルチモーダル感性分析(MSA)を実現するための言語支配型耐雑音学習ネットワーク(LNLN)を提案する。
LNLNは、支配的モダリティ補正(DMC)モジュールと支配的モダリティベースマルチモーダル学習(DMML)モジュールを備え、様々なノイズシナリオにおけるモデルの堅牢性を高める。
- 参考スコア(独自算出の注目度): 20.75292807497547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The field of Multimodal Sentiment Analysis (MSA) has recently witnessed an emerging direction seeking to tackle the issue of data incompleteness. Recognizing that the language modality typically contains dense sentiment information, we consider it as the dominant modality and present an innovative Language-dominated Noise-resistant Learning Network (LNLN) to achieve robust MSA. The proposed LNLN features a dominant modality correction (DMC) module and dominant modality based multimodal learning (DMML) module, which enhances the model's robustness across various noise scenarios by ensuring the quality of dominant modality representations. Aside from the methodical design, we perform comprehensive experiments under random data missing scenarios, utilizing diverse and meaningful settings on several popular datasets (\textit{e.g.,} MOSI, MOSEI, and SIMS), providing additional uniformity, transparency, and fairness compared to existing evaluations in the literature. Empirically, LNLN consistently outperforms existing baselines, demonstrating superior performance across these challenging and extensive evaluation metrics.
- Abstract(参考訳): マルチモーダル・センティメント・アナリティクス(MSA)の分野は、データ不完全性の問題に対処する新たな方向性を最近見てきた。
言語モダリティには通常、密度の強い感情情報が含まれていることを認識し、これを支配的なモダリティとみなし、堅牢なMSAを実現するために、言語に支配された耐雑音学習ネットワーク(LNLN)を提案する。
提案したLNLNは、支配的モダリティ補正(DMC)モジュールと支配的モダリティベースマルチモーダル学習(DMML)モジュールを備え、支配的モダリティ表現の品質を保証することにより、様々なノイズシナリオにおけるモデルの堅牢性を高める。
方法論的な設計とは別に,いくつかの一般的なデータセット(\textit{e g ,} MOSI, MOSEI, SIMS)の多様かつ有意義な設定を利用して,ランダムなデータ不足シナリオ下で総合的な実験を行い,文献における既存の評価に比べて統一性,透明性,公正性を付加する。
経験的に、LNLNは既存のベースラインを一貫して上回り、これらの挑戦的で広範な評価指標よりも優れたパフォーマンスを示している。
関連論文リスト
- An Information Criterion for Controlled Disentanglement of Multimodal Data [39.601584166020274]
マルチモーダル表現学習は、複数のモーダルに固有の情報を関連付けて分解しようとする。
Disentangled Self-Supervised Learning (DisentangledSSL)は、非角表現を学習するための新しい自己教師型アプローチである。
論文 参考訳(メタデータ) (2024-10-31T14:57:31Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct [148.39859547619156]
我々は,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。
MMEvolは、きめ細かい知覚、認知的推論、相互作用の進化の洗練された組み合わせによって、データ品質を反復的に改善する。
提案手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2024-09-09T17:44:00Z) - Assessing Modality Bias in Video Question Answering Benchmarks with Multimodal Large Language Models [12.841405829775852]
我々は、VidQAベンチマークとデータセットのバイアスを特定するために、MIS(Modality importance score)を導入する。
また,最新のMLLMを用いてモダリティの重要度を推定する手法を提案する。
以上の結果から,既存のデータセットでは,モダリティの不均衡による情報統合が効果的に行われていないことが示唆された。
論文 参考訳(メタデータ) (2024-08-22T23:32:42Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - MM-BigBench: Evaluating Multimodal Models on Multimodal Content
Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。
本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文 参考訳(メタデータ) (2023-10-13T11:57:04Z) - Rethinking Uncertainly Missing and Ambiguous Visual Modality in
Multi-Modal Entity Alignment [38.574204922793626]
提案するデータセットMMEA-UMVM上で,最新のMMEAモデルをベンチマークすることで,視覚的モダリティの不完全性のさらなる解析を行う。
我々の研究は、モダリティの不完全性に直面して、モデルがモダリティノイズを過度に適合させ、モダリティを欠く高い速度で性能の振動や低下を示すことを示唆している。
UMAEAは、不確実で曖昧な視覚的モダリティに対処するために設計された、堅牢なマルチモーダルエンティティアライメントアプローチである。
論文 参考訳(メタデータ) (2023-07-30T12:16:49Z) - VERITE: A Robust Benchmark for Multimodal Misinformation Detection
Accounting for Unimodal Bias [17.107961913114778]
マルチモーダルの誤報は ソーシャルメディアのプラットフォームで 増え続けている問題です
本研究では,広範に使用されているMDDベンチマークにおいて,一様偏差の存在を調査・同定する。
リアルな合成学習データを生成するための新しい手法であるCrossmodal HArd Synthetic MisAlignment (CHASMA)を導入する。
論文 参考訳(メタデータ) (2023-04-27T12:28:29Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - Which is Making the Contribution: Modulating Unimodal and Cross-modal
Dynamics for Multimodal Sentiment Analysis [18.833050804875032]
マルチモーダル感情分析(MSA)は、マルチモーダルデータの利用により注目される。
最近のMSAは、主にクロスモーダル力学の学習に重点を置いているが、ユニモーダルネットワークの最適解を探すことは無視されている。
MSAフレームワーク textbfModulation textbfModel for textbfMultimodal textbfSentiment textbfAnalysisを提案する。
論文 参考訳(メタデータ) (2021-11-10T03:29:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。