論文の概要: Analysis of Social Media Data using Multimodal Deep Learning for
Disaster Response
- arxiv url: http://arxiv.org/abs/2004.11838v1
- Date: Tue, 14 Apr 2020 19:36:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 09:31:57.723447
- Title: Analysis of Social Media Data using Multimodal Deep Learning for
Disaster Response
- Title(参考訳): マルチモーダル深層学習による災害対応のためのソーシャルメディアデータの解析
- Authors: Ferda Ofli, Firoj Alam and Muhammad Imran
- Abstract要約: 本稿では,ソーシャルメディアデータのテキストと画像のモダリティを併用して,最先端のディープラーニング技術を用いて共同表現を学習することを提案する。
実世界の災害データセットの実験により、提案されたマルチモーダルアーキテクチャは、単一のモダリティを用いてトレーニングされたモデルよりも優れたパフォーマンスが得られることが示された。
- 参考スコア(独自算出の注目度): 6.8889797054846795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimedia content in social media platforms provides significant information
during disaster events. The types of information shared include reports of
injured or deceased people, infrastructure damage, and missing or found people,
among others. Although many studies have shown the usefulness of both text and
image content for disaster response purposes, the research has been mostly
focused on analyzing only the text modality in the past. In this paper, we
propose to use both text and image modalities of social media data to learn a
joint representation using state-of-the-art deep learning techniques.
Specifically, we utilize convolutional neural networks to define a multimodal
deep learning architecture with a modality-agnostic shared representation.
Extensive experiments on real-world disaster datasets show that the proposed
multimodal architecture yields better performance than models trained using a
single modality (e.g., either text or image).
- Abstract(参考訳): ソーシャルメディアプラットフォームにおけるマルチメディアコンテンツは災害時に重要な情報を提供する。
共有される情報には、負傷者や死者の報告、インフラの損傷、行方不明者や行方不明者などが含まれる。
災害対応のためのテキストコンテンツと画像コンテンツの両方の有用性は,多くの研究で示されているが,過去にはテキストモダリティのみの分析に重点が置かれていた。
本稿では,ソーシャルメディアデータのテキストと画像のモダリティを併用して,最先端のディープラーニング技術を用いた共同表現学習を提案する。
具体的には,畳み込みニューラルネットワークを用いて,モダリティ非依存な共有表現を持つマルチモーダルディープラーニングアーキテクチャを定義する。
実世界の災害データセットに関する広範囲な実験により、提案されたマルチモーダルアーキテクチャは、単一のモダリティ(例えばテキストまたは画像)を使用してトレーニングされたモデルよりも優れたパフォーマンスをもたらすことが示されている。
関連論文リスト
- Advanced Multimodal Deep Learning Architecture for Image-Text Matching [33.8315200009152]
画像テキストマッチングは、画像とテキスト間の意味的関連をマッチング関係としてモデル化することを目的とした、重要なマルチモーダルタスクである。
本稿では、視覚情報のための深層ニューラルネットワークの高レベル抽象表現能力と、テキスト意味理解のための自然言語処理モデルの利点を組み合わせた高度なマルチモーダルディープラーニングアーキテクチャを提案する。
実験の結果、既存の画像テキストマッチングモデルと比較して、最適化された新しいモデルは一連のベンチマークデータセットの性能を大幅に改善した。
論文 参考訳(メタデータ) (2024-06-13T08:32:24Z) - Iterative Adversarial Attack on Image-guided Story Ending Generation [37.42908817585858]
マルチモーダル学習は、画像やテキストなどの様々なソースからの情報を統合できるモデルを開発することを含む。
最近のIgSEGモデルのバックボーンであるディープニューラルネットワークは、敵のサンプルに対して脆弱である。
画像とテキストのモダリティ攻撃を融合させる反復的逆攻撃法(Iterative- attack)を提案する。
論文 参考訳(メタデータ) (2023-05-16T06:19:03Z) - Harnessing the Power of Text-image Contrastive Models for Automatic
Detection of Online Misinformation [50.46219766161111]
誤情報識別の領域における構成的学習を探求する自己学習モデルを構築した。
本モデルでは、トレーニングデータが不十分な場合、非マッチング画像-テキストペア検出の優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-19T02:53:59Z) - Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - MEDIC: A Multi-Task Learning Dataset for Disaster Image Classification [6.167082944123002]
我々は,人道支援のためのソーシャルメディア画像分類データセットとして最大のMEDICを提案する。
MEDICは71,198の画像で構成され、マルチタスク学習のセットアップで4つのタスクに対処する。
ソーシャルメディアの画像、災害対応、マルチタスク学習研究などだ。
論文 参考訳(メタデータ) (2021-08-29T11:55:50Z) - Enhancing Social Relation Inference with Concise Interaction Graph and
Discriminative Scene Representation [56.25878966006678]
我々はtextbfSocial rtextbfElation (PRISE) における textbfPractical textbfInference のアプローチを提案する。
人の対話的特徴と全体主義的な場面の識別的特徴を簡潔に学習する。
PRISEはPIPAデータセットにおけるドメイン分類の改善を6.8$%で達成している。
論文 参考訳(メタデータ) (2021-07-30T04:20:13Z) - Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。
共通情報と相補情報の両方を敵意で抽出することを目的としている。
特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文 参考訳(メタデータ) (2021-02-15T18:46:44Z) - Cross-Media Keyphrase Prediction: A Unified Framework with
Multi-Modality Multi-Head Attention and Image Wordings [63.79979145520512]
マルチメディア投稿におけるキーワード予測におけるテキストと画像の併用効果について検討する。
複雑なマルチメディアインタラクションを捉えるために,M3H-Att(Multi-Modality Multi-Head Attention)を提案する。
我々のモデルは,従来の注目ネットワークに基づいて,過去の技術状況よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-11-03T08:44:18Z) - CommuNety: A Deep Learning System for the Prediction of Cohesive Social
Communities [14.839117147209603]
画像を用いた結束型ソーシャルネットワーク予測のための深層学習システムCommuNetyを提案する。
提案したディープラーニングモデルは階層型CNNアーキテクチャで構成され,各結合ネットワークに関連する記述的特徴を学習する。
また、画像中の人物の存在を定量化するための新しい顔共起周波数アルゴリズムと、予測されたソーシャルネットワークにおける個人間の関係の強さを分析する新しい写真ランキング手法を提案する。
論文 参考訳(メタデータ) (2020-07-29T11:03:22Z) - Preserving Semantic Neighborhoods for Robust Cross-modal Retrieval [41.505920288928365]
マルチモーダルデータは、クロスモーダル検索方法への関心を喚起している。
テキストと画像のサブスペースのセマンティックコヒーレンシを促進する新しいモダリティ損失を提案する。
提案手法では,ペア画像とテキストが近接するだけでなく,期待される画像イメージとテキストテキストの関係も観察される。
論文 参考訳(メタデータ) (2020-07-16T20:32:54Z) - Image Segmentation Using Deep Learning: A Survey [58.37211170954998]
イメージセグメンテーションは、画像処理とコンピュータビジョンにおいて重要なトピックである。
深層学習モデルを用いた画像セグメンテーション手法の開発を目的とした研究が,これまでに数多く行われている。
論文 参考訳(メタデータ) (2020-01-15T21:37:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。