論文の概要: CrisisKAN: Knowledge-infused and Explainable Multimodal Attention
Network for Crisis Event Classification
- arxiv url: http://arxiv.org/abs/2401.06194v1
- Date: Thu, 11 Jan 2024 13:22:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 21:08:26.106527
- Title: CrisisKAN: Knowledge-infused and Explainable Multimodal Attention
Network for Crisis Event Classification
- Title(参考訳): CrisisKAN: 危機イベント分類のための知識注入型マルチモーダル注意ネットワーク
- Authors: Shubham Gupta, Nandini Saini, Suman Kundu, Debasis Das
- Abstract要約: CrisisKANは知識を注入し、説明可能なマルチモーダル・アテンション・ネットワークであり、危機イベントを分類するためにウィキペディアの外部知識とともに画像とテキストを格納する。
テキスト情報の文脈固有の理解を深めるために,提案したwiki抽出アルゴリズムを用いてウィキペディアの知識を統合した。
信頼性を確保するため,モデル固有のアプローチであるGrad-CAMを用いて,提案モデルの予測を頑健に説明する。
- 参考スコア(独自算出の注目度): 25.93602006155562
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Pervasive use of social media has become the emerging source for real-time
information (like images, text, or both) to identify various events. Despite
the rapid growth of image and text-based event classification, the
state-of-the-art (SOTA) models find it challenging to bridge the semantic gap
between features of image and text modalities due to inconsistent encoding.
Also, the black-box nature of models fails to explain the model's outcomes for
building trust in high-stakes situations such as disasters, pandemic.
Additionally, the word limit imposed on social media posts can potentially
introduce bias towards specific events. To address these issues, we proposed
CrisisKAN, a novel Knowledge-infused and Explainable Multimodal Attention
Network that entails images and texts in conjunction with external knowledge
from Wikipedia to classify crisis events. To enrich the context-specific
understanding of textual information, we integrated Wikipedia knowledge using
proposed wiki extraction algorithm. Along with this, a guided cross-attention
module is implemented to fill the semantic gap in integrating visual and
textual data. In order to ensure reliability, we employ a model-specific
approach called Gradient-weighted Class Activation Mapping (Grad-CAM) that
provides a robust explanation of the predictions of the proposed model. The
comprehensive experiments conducted on the CrisisMMD dataset yield in-depth
analysis across various crisis-specific tasks and settings. As a result,
CrisisKAN outperforms existing SOTA methodologies and provides a novel view in
the domain of explainable multimodal event classification.
- Abstract(参考訳): ソーシャルメディアの普及は、様々な出来事を識別するためのリアルタイム情報(画像、テキスト、またはその両方)の新興源となっている。
画像とテキストベースのイベント分類の急速な発展にもかかわらず、最先端(SOTA)モデルは、一貫性のないエンコーディングによる画像とテキストのモダリティのセマンティックなギャップを埋めることが困難である。
また、モデルのブラックボックスの性質は、災害やパンデミックといった高リスクな状況における信頼を構築するためのモデルの結果を説明できない。
さらに、ソーシャルメディア投稿に課される制限は、特定の出来事に対する偏見をもたらす可能性がある。
そこで我々は,wikipediaの外部知識と連動して危機事象を分類し,画像とテキストを包含する,知識を融合して説明可能なマルチモーダル・アテンション・ネットワークである crisiskan を提案する。
テキスト情報の文脈固有の理解を深めるために,提案したwiki抽出アルゴリズムを用いてウィキペディアの知識を統合する。
これに加えて、視覚データとテキストデータの統合におけるセマンティックギャップを埋めるために、ガイド付きクロスアテンションモジュールが実装されている。
信頼性を確保するために,グラデーション強調クラスアクティベーションマッピング (grad-cam) と呼ばれるモデル固有のアプローチを採用し,提案モデルの予測の堅牢な説明を提供する。
CrisisMMDデータセットで実施された包括的な実験は、様々な危機固有のタスクや設定にわたって詳細な分析をもたらす。
その結果、CrisisKANは既存のSOTA手法より優れており、説明可能なマルチモーダルイベント分類の領域において新しい視点を提供する。
関連論文リスト
- Enhancing Argument Structure Extraction with Efficient Leverage of
Contextual Information [79.06082391992545]
本稿では,コンテキスト情報を完全に活用する効率的なコンテキスト認識モデル(ECASE)を提案する。
文脈情報や議論情報を集約するために,シーケンスアテンションモジュールと距離重み付き類似度損失を導入する。
各種ドメインの5つのデータセットに対する実験により,我々のモデルが最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2023-10-08T08:47:10Z) - Information Screening whilst Exploiting! Multimodal Relation Extraction
with Feature Denoising and Multimodal Topic Modeling [96.75821232222201]
既存のマルチモーダル関係抽出(MRE)研究は、内部情報過剰利用と外部情報過多という2つの共存課題に直面している。
内部情報スクリーニングと外部情報活用を同時に実現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:57Z) - Iterative Adversarial Attack on Image-guided Story Ending Generation [37.42908817585858]
マルチモーダル学習は、画像やテキストなどの様々なソースからの情報を統合できるモデルを開発することを含む。
最近のIgSEGモデルのバックボーンであるディープニューラルネットワークは、敵のサンプルに対して脆弱である。
画像とテキストのモダリティ攻撃を融合させる反復的逆攻撃法(Iterative- attack)を提案する。
論文 参考訳(メタデータ) (2023-05-16T06:19:03Z) - Interpretable Detection of Out-of-Context Misinformation with Neural-Symbolic-Enhanced Large Multimodal Model [16.348950072491697]
誤報の作者は、ニュース検出システムや偽ニュースを騙すために、マルチメディア以外のコンテンツを使う傾向が強まっている。
この新たなタイプの誤報は、検出だけでなく、個々のモダリティが真の情報に十分近いため、明確化の難しさも増す。
本稿では,不一致のペアと相互の矛盾を同時に識別する,解釈可能なクロスモーダル・デコンテクスト化検出を実現する方法について検討する。
論文 参考訳(メタデータ) (2023-04-15T21:11:55Z) - Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image
Diffusion Models [103.61066310897928]
最近のテキスト・ツー・イメージ生成モデルは、ターゲットのテキスト・プロンプトによって導かれる多様な創造的な画像を生成する非例外的な能力を実証している。
革命的ではあるが、現在の最先端拡散モデルは、与えられたテキストプロンプトのセマンティクスを完全に伝達するイメージの生成に失敗する可能性がある。
本研究では, 一般に公開されている安定拡散モデルを分析し, 破滅的無視の有無を評価し, そのモデルが入力プロンプトから1つ以上の被写体を生成するのに失敗した場合について検討する。
提案するジェネレーティブ・セマンティック・ナーシング(GSN)の概念は、推論時間中にハエの生殖過程に介入し、忠実性を改善するものである。
論文 参考訳(メタデータ) (2023-01-31T18:10:38Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - CLIP-Event: Connecting Text and Images with Event Structures [123.31452120399827]
視覚言語事前学習モデルを適用したコントラスト学習フレームワークを提案する。
我々は、イベント構造知識を得るために、テキスト情報抽出技術を利用する。
実験により、ゼロショットCLIP-Eventは引数抽出において最先端の教師付きモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2022-01-13T17:03:57Z) - STEEX: Steering Counterfactual Explanations with Semantics [28.771471624014065]
ディープラーニングモデルは、安全クリティカルなアプリケーションでますます使われています。
低解像度の顔画像のような単純な画像では、視覚的対実的な説明が最近提案されている。
本稿では, 可塑性, スパースな修正を生み出す, 新たな生成的対実的説明フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-17T13:20:29Z) - Multimodal Categorization of Crisis Events in Social Media [81.07061295887172]
本稿では,画像とテキストの両方を入力として利用するマルチモーダル融合法を提案する。
特に、弱モダリティから非形式的および誤解を招くコンポーネントをフィルタリングできるクロスアテンションモジュールを導入する。
本手法は,3つの危機関連タスクにおいて,一様アプローチと強いマルチモーダルベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2020-04-10T06:31:30Z) - Unsupervised and Interpretable Domain Adaptation to Rapidly Filter
Tweets for Emergency Services [18.57009530004948]
本稿では,TRECインシデントストリームの公開データセットを用いて,危機時に関連するツイートを分類する新しい手法を提案する。
私たちは各タスクに専用の注意層を使用して、モデル解釈可能性を提供しています。
新型コロナウイルスのパンデミックに対するユースケースを提供することで、我々の仕事の実践的な意味を示す。
論文 参考訳(メタデータ) (2020-03-04T06:40:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。