論文の概要: Contextual Attention-Based Multimodal Fusion of LLM and CNN for Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2508.13196v1
- Date: Fri, 15 Aug 2025 21:34:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.647942
- Title: Contextual Attention-Based Multimodal Fusion of LLM and CNN for Sentiment Analysis
- Title(参考訳): 知覚分析のためのLLMとCNNのコンテキストアテンションに基づくマルチモーダル融合
- Authors: Meriem Zerkouk, Miloud Mihoubi, Belkacem Chikhaoui,
- Abstract要約: 本稿では,ソーシャルメディア上でのマルチモーダル感情分析の新たなアプローチについて紹介する。
テキストと画像のモダリティを別々に処理する従来の方法とは異なり、我々のアプローチはCNNベースの画像解析とLarge Language Modelベースのテキスト処理をシームレスに統合する。
本モデルでは,F1スコアの精度が2.43%向上し,F1スコアが5.18%向上した。
- 参考スコア(独自算出の注目度): 0.4369550829556578
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a novel approach for multimodal sentiment analysis on social media, particularly in the context of natural disasters, where understanding public sentiment is crucial for effective crisis management. Unlike conventional methods that process text and image modalities separately, our approach seamlessly integrates Convolutional Neural Network (CNN) based image analysis with Large Language Model (LLM) based text processing, leveraging Generative Pre-trained Transformer (GPT) and prompt engineering to extract sentiment relevant features from the CrisisMMD dataset. To effectively model intermodal relationships, we introduce a contextual attention mechanism within the fusion process. Leveraging contextual-attention layers, this mechanism effectively captures intermodality interactions, enhancing the model's comprehension of complex relationships between textual and visual data. The deep neural network architecture of our model learns from these fused features, leading to improved accuracy compared to existing baselines. Experimental results demonstrate significant advancements in classifying social media data into informative and noninformative categories across various natural disasters. Our model achieves a notable 2.43% increase in accuracy and 5.18% in F1-score, highlighting its efficacy in processing complex multimodal data. Beyond quantitative metrics, our approach provides deeper insight into the sentiments expressed during crises. The practical implications extend to real time disaster management, where enhanced sentiment analysis can optimize the accuracy of emergency interventions. By bridging the gap between multimodal analysis, LLM powered text understanding, and disaster response, our work presents a promising direction for Artificial Intelligence (AI) driven crisis management solutions. Keywords:
- Abstract(参考訳): 本稿では,ソーシャルメディア上でのマルチモーダル感情分析の新たなアプローチについて紹介する。
テキストと画像のモダリティを別々に処理する従来の手法とは異なり、我々のアプローチは畳み込みニューラルネットワーク(CNN)に基づく画像解析をLarge Language Model(LLM)ベースのテキスト処理とシームレスに統合し、生成事前学習変換(GPT)を活用し、CrisisMMDデータセットから感情的特徴を抽出する。
相互関係を効果的にモデル化するために,融合プロセス内での文脈的注意機構を導入する。
コンテキスト・アテンション・レイヤを活用することで、このメカニズムはモダリティ間の相互作用を効果的に捉え、テキストデータと視覚データの間の複雑な関係に関するモデルの理解を高めます。
我々のモデルのディープニューラルネットワークアーキテクチャは、これらの融合した特徴から学習し、既存のベースラインと比較して精度が向上する。
実験の結果, 様々な自然災害において, ソーシャルメディアデータを情報的・非情報的カテゴリーに分類する上で, 顕著な進歩が見られた。
本モデルでは,F1スコアの精度が2.43%向上し,F1スコアが5.18%向上した。
定量的メトリクス以外にも、私たちのアプローチは危機時に表現される感情について深い洞察を与えてくれます。
現実的な影響は、感情分析が緊急介入の精度を最適化できるリアルタイム災害管理にまで及んでいる。
マルチモーダル分析,LLMによるテキスト理解,災害対応のギャップを埋めることによって,我々の研究は人工知能(AI)による危機管理ソリューションの有望な方向性を示す。
キーワード
関連論文リスト
- Differential Attention for Multimodal Crisis Event Analysis [1.5030693386126894]
ソーシャルネットワークは危機時の貴重な情報源になり得る。
危機データの分類を強化するために,視覚言語モデル(VLM)と高度な融合戦略を検討する。
以上の結果から,事前学習されたVLM,リッチテキスト記述,適応融合戦略の組み合わせは,分類精度において常に最先端のモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-07-07T16:20:35Z) - Representation Decomposition for Learning Similarity and Contrastness Across Modalities for Affective Computing [19.177541719713666]
マルチモーダル感情コンピューティングは、画像やテキストなどの多様なデータソースから人間の態度を自動的に認識し、解釈することを目的としている。
本稿では,視覚的およびテキスト的表現を共有(モダリティ不変)およびモダリティ固有のコンポーネントに明示的に分解する,感情コンピューティングのための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-06-08T11:15:57Z) - Understanding the Information Propagation Effects of Communication Topologies in LLM-based Multi-Agent Systems [58.95962217043371]
提案手法は, エージェントの出力の正確さ, 誤動作の有無を, 異なる範囲の位相の下で伝達する因果関係を解析するための枠組みである。
実験により,有益な情報拡散を保ちながらエラーの伝播を効果的に抑制する,適度に疎らなトポロジが,通常最適なタスク性能を達成できることが判明した。
本稿では,高密度グラフとスパースグラフの両方から接続パターンを融合させることにより,エラー抑制と有益な情報伝達のバランスをとる新しいトポロジ設計手法 EIB-leanrner を提案する。
論文 参考訳(メタデータ) (2025-05-29T11:21:48Z) - Contextual Reinforcement in Multimodal Token Compression for Large Language Models [0.0]
トークン圧縮は、ますます複雑で多様なデータセットを扱うためにモデルをスケーリングする上で、依然として重要な課題である。
相互依存や意味的関連性を通じてトークンの重要度を動的に調整する,コンテキスト強化に基づく新しいメカニズムを導入する。
このアプローチは,情報表現の品質と一貫性を維持しつつ,トークン使用量の大幅な削減を可能にする。
論文 参考訳(メタデータ) (2025-01-28T02:44:31Z) - Online Multi-modal Root Cause Analysis [61.94987309148539]
ルート原因分析(RCA)は、マイクロサービスシステムにおける障害の根本原因の特定に不可欠である。
既存のオンラインRCAメソッドは、マルチモーダルシステムにおける複雑な相互作用を見渡す単一モーダルデータのみを処理する。
OCEANは、根本原因の局在化のための新しいオンラインマルチモーダル因果構造学習手法である。
論文 参考訳(メタデータ) (2024-10-13T21:47:36Z) - GCM-Net: Graph-enhanced Cross-Modal Infusion with a Metaheuristic-Driven Network for Video Sentiment and Emotion Analysis [2.012311338995539]
本稿では,発話からのマルチモーダルな文脈情報を活用し,メタヒューリスティックなアルゴリズムを用いて発話レベルの感情と感情予測を学習する新しい枠組みを提案する。
提案手法の有効性を示すため,我々は3つの顕著なマルチモーダル・ベンチマーク・データセットについて広範な評価を行った。
論文 参考訳(メタデータ) (2024-10-02T10:07:48Z) - WisdoM: Improving Multimodal Sentiment Analysis by Fusing Contextual
World Knowledge [73.76722241704488]
大規模視覚言語モデル(LVLM)から引き起こされる文脈的世界知識を利用してマルチモーダル感情分析を行うプラグインフレームワークWisdoMを提案する。
我々の手法は、いくつかの最先端手法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-01-12T16:08:07Z) - Re-mine, Learn and Reason: Exploring the Cross-modal Semantic
Correlations for Language-guided HOI detection [57.13665112065285]
ヒューマンオブジェクトインタラクション(HOI)検出は、コンピュータビジョンの課題である。
本稿では,構造化テキスト知識を組み込んだHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T14:20:52Z) - Multimodal Categorization of Crisis Events in Social Media [81.07061295887172]
本稿では,画像とテキストの両方を入力として利用するマルチモーダル融合法を提案する。
特に、弱モダリティから非形式的および誤解を招くコンポーネントをフィルタリングできるクロスアテンションモジュールを導入する。
本手法は,3つの危機関連タスクにおいて,一様アプローチと強いマルチモーダルベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2020-04-10T06:31:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。