論文の概要: Differential Attention for Multimodal Crisis Event Analysis
- arxiv url: http://arxiv.org/abs/2507.05165v1
- Date: Mon, 07 Jul 2025 16:20:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.513611
- Title: Differential Attention for Multimodal Crisis Event Analysis
- Title(参考訳): マルチモーダル危機事象解析のための微分注意法
- Authors: Nusrat Munia, Junfeng Zhu, Olfa Nasraoui, Abdullah-Al-Zubaer Imran,
- Abstract要約: ソーシャルネットワークは危機時の貴重な情報源になり得る。
危機データの分類を強化するために,視覚言語モデル(VLM)と高度な融合戦略を検討する。
以上の結果から,事前学習されたVLM,リッチテキスト記述,適応融合戦略の組み合わせは,分類精度において常に最先端のモデルよりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 1.5030693386126894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Social networks can be a valuable source of information during crisis events. In particular, users can post a stream of multimodal data that can be critical for real-time humanitarian response. However, effectively extracting meaningful information from this large and noisy data stream and effectively integrating heterogeneous data remains a formidable challenge. In this work, we explore vision language models (VLMs) and advanced fusion strategies to enhance the classification of crisis data in three different tasks. We incorporate LLaVA-generated text to improve text-image alignment. Additionally, we leverage Contrastive Language-Image Pretraining (CLIP)-based vision and text embeddings, which, without task-specific fine-tuning, outperform traditional models. To further refine multimodal fusion, we employ Guided Cross Attention (Guided CA) and combine it with the Differential Attention mechanism to enhance feature alignment by emphasizing critical information while filtering out irrelevant content. Our results show that while Differential Attention improves classification performance, Guided CA remains highly effective in aligning multimodal features. Extensive experiments on the CrisisMMD benchmark data set demonstrate that the combination of pretrained VLMs, enriched textual descriptions, and adaptive fusion strategies consistently outperforms state-of-the-art models in classification accuracy, contributing to more reliable and interpretable models for three different tasks that are crucial for disaster response. Our code is available at https://github.com/Munia03/Multimodal_Crisis_Event.
- Abstract(参考訳): ソーシャルネットワークは危機時の貴重な情報源になり得る。
特に、リアルタイムの人道的反応に重要なマルチモーダルデータのストリームを投稿することができる。
しかし、この巨大でノイズの多いデータストリームから意味のある情報を効果的に抽出し、異種データを効果的に統合することは、非常に難しい課題である。
本研究では,視覚言語モデル(VLM)と高度な融合戦略を探求し,三つの異なるタスクにおける危機データの分類を強化する。
LLaVA生成テキストを組み込んでテキスト画像のアライメントを改善する。
さらに,コントラシブ言語・イメージ・プレトレーニング(CLIP)に基づくビジョンとテキストの埋め込みを活用し,タスク固有の微調整なしで従来のモデルより優れた性能を発揮する。
マルチモーダル融合をさらに高度化するため,ガイド・クロス・アテンション (Guided Cross Attention, ガイド・クロス・アテンション, ガイド・アテンション, ガイド・アテンション, ガイド・アテンション, ガイド・アテンション) と組み合わせて, 重要な情報を強調し, 無関係コンテンツをフィルタリングする。
以上の結果から,差分注意は分類性能を向上するが,ガイドCAは多モード特徴の整合に極めて有効であることが示唆された。
CrisisMMDベンチマークデータセットの大規模な実験により、事前訓練されたVLM、豊富なテキスト記述、および適応融合戦略の組み合わせは、分類精度において最先端のモデルよりも一貫して優れており、災害対応に不可欠な3つの異なるタスクに対するより信頼性が高く解釈可能なモデルに寄与することが示された。
私たちのコードはhttps://github.com/Munia03/Multimodal_Crisis_Eventで公開されています。
関連論文リスト
- MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation [88.78166077081912]
我々は、MLLMから特定のマルチモーダル知識を削除する方法を評価するために、マルチモーダル・アンラーニング・ベンチマークUnLOK-VQAとアタック・アンド・ディフェンス・フレームワークを導入する。
その結果,マルチモーダル攻撃はテキストや画像のみの攻撃よりも優れており,最も効果的な防御は内部モデル状態から解答情報を除去することを示した。
論文 参考訳(メタデータ) (2025-05-01T01:54:00Z) - mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data [71.352883755806]
マルチモーダル埋め込みモデルは、テキストや画像などの様々なモダリティからデータを統一表現空間にマッピングする能力において、大きな注目を集めている。
しかし、ラベル付きマルチモーダルデータは、しばしば埋め込み性能を妨げる。
近年のアプローチでは、この問題に対処するためにデータ合成を活用しているが、合成データの質は依然として重大なボトルネックとなっている。
論文 参考訳(メタデータ) (2025-02-12T15:03:33Z) - GAMED: Knowledge Adaptive Multi-Experts Decoupling for Multimodal Fake News Detection [18.157900272828602]
マルチモーダルフェイクニュース検出は、視覚や言語などの異種データソースをモデル化することが多い。
本稿では,マルチモーダルモデリングのための GAMED を新たに開発する。
横断的なシナジーを強化するために、モーダルデカップリングを通じて特徴的で差別的な特徴を生み出すことに焦点を当てている。
論文 参考訳(メタデータ) (2024-12-11T19:12:22Z) - Multimodal Remote Sensing Scene Classification Using VLMs and Dual-Cross Attention Networks [0.8999666725996978]
本稿では,大規模な視覚言語モデル(VLM)によって生成されたテキスト記述を,高価な手作業による注釈コストを伴わずに補助的なモダリティとして統合する新しいRSSCフレームワークを提案する。
5つのRSSCデータセットの定量的および定性的な評価実験により、我々のフレームワークがベースラインモデルより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-12-03T16:24:16Z) - Multimodal Prompt Transformer with Hybrid Contrastive Learning for
Emotion Recognition in Conversation [9.817888267356716]
会話におけるマルチモーダル感情認識(ERC)は2つの問題に直面している。
表現能力の強いモダリティに対して深部感情の手がかり抽出を行った。
特徴フィルタは、表現能力の弱いモダリティのためのマルチモーダルプロンプト情報として設計された。
MPTは、Transformerの各アテンション層にマルチモーダル融合情報を埋め込む。
論文 参考訳(メタデータ) (2023-10-04T13:54:46Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Enhancing Crisis-Related Tweet Classification with Entity-Masked
Language Modeling and Multi-Task Learning [0.30458514384586394]
本稿では,マルチタスク学習問題として,エンティティ・マスク言語モデリングと階層型マルチラベル分類の組み合わせを提案する。
我々は,TREC-ISデータセットからのつぶやきに対する評価を行い,動作可能な情報型に対して最大10%のF1スコアの絶対的なパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-11-21T13:54:10Z) - Multimodal Categorization of Crisis Events in Social Media [81.07061295887172]
本稿では,画像とテキストの両方を入力として利用するマルチモーダル融合法を提案する。
特に、弱モダリティから非形式的および誤解を招くコンポーネントをフィルタリングできるクロスアテンションモジュールを導入する。
本手法は,3つの危機関連タスクにおいて,一様アプローチと強いマルチモーダルベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2020-04-10T06:31:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。