論文の概要: Flood Detection via Twitter Streams using Textual and Visual Features
- arxiv url: http://arxiv.org/abs/2011.14944v1
- Date: Mon, 30 Nov 2020 16:09:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-07 01:19:50.515863
- Title: Flood Detection via Twitter Streams using Textual and Visual Features
- Title(参考訳): テキストとビジュアル機能を用いたTwitterストリームによる洪水検出
- Authors: Firoj Alam, Zohaib Hassan, Kashif Ahmad, Asma Gul, Michael Reiglar,
Nicola Conci, Ala AL-Fuqaha
- Abstract要約: 本稿では,MediaEval 2020 Flood-Related Multimedia Taskに対する提案手法を提案する。
このタスクは、Twitter上で共有されるマルチメディアコンテンツの洪水イベントを分析し、検出することを目的としている。
- 参考スコア(独自算出の注目度): 5.615972945389011
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The paper presents our proposed solutions for the MediaEval 2020
Flood-Related Multimedia Task, which aims to analyze and detect flooding events
in multimedia content shared over Twitter. In total, we proposed four different
solutions including a multi-modal solution combining textual and visual
information for the mandatory run, and three single modal image and text-based
solutions as optional runs. In the multimodal method, we rely on a supervised
multimodal bitransformer model that combines textual and visual features in an
early fusion, achieving a micro F1-score of .859 on the development data set.
For the text-based flood events detection, we use a transformer network (i.e.,
pretrained Italian BERT model) achieving an F1-score of .853. For image-based
solutions, we employed multiple deep models, pre-trained on both, the ImageNet
and places data sets, individually and combined in an early fusion achieving
F1-scores of .816 and .805 on the development set, respectively.
- Abstract(参考訳): 本稿では,Twitter上で共有されるマルチメディアコンテンツにおける洪水イベントの分析と検出を目的とした,メディアEval 2020 Flood-Related Multimedia Taskのソリューションを提案する。
総じて,必須実行のためのテキスト情報と視覚情報を組み合わせたマルチモーダルソリューションと,オプション実行時の1つのモーダルイメージとテキストベースソリューションの3つを含む,4つの異なるソリューションを提案した。
マルチモーダル方式では、初期融合におけるテキストと視覚の特徴を組み合わせた教師付きマルチモーダルバイコンバータモデルに頼り、開発データセット上で.859のマイクロF1スコアを達成する。
テキストベースの洪水イベント検出には、変圧器ネットワーク(例えば、事前訓練されたイタリアのBERTモデル)を使用し、F1スコアは.853である。
画像ベースソリューションでは、ImageNetと配置データセットの両方で事前訓練された複数の深層モデルを用いて、開発セット上でそれぞれ.816と.805のF1スコアを達成する早期融合を個別に組み合わせた。
関連論文リスト
- Multimodality Helps Few-Shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
本稿では,テキストラベルと潜在的に利用可能な2次元画像モダリティを利用して,コストフリーのマルチモーダルFS-PCSセットアップを提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダルセグ(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
Leopardは、複数のテキストリッチイメージを含む視覚言語タスクを扱うビジョン言語モデルである。
まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。
第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを開発した。
論文 参考訳(メタデータ) (2024-10-02T16:55:01Z) - Multimodal Cross-Document Event Coreference Resolution Using Linear Semantic Transfer and Mixed-Modality Ensembles [8.233126457964834]
イベントコア参照解決(英: Event coreference resolution、ECR)とは、イベントの別個の参照が、実際に同じ基礎となる発生にリンクされているかどうかを決定するタスクである。
本稿では,視覚モデルと言語モデル間の単純な線形写像と,視覚的およびテキスト的手がかりを統合したマルチモーダル・クロスドキュメント・イベント・コア参照分解法を提案する。
本研究は,ECRにおけるマルチモーダル情報の有用性を示すものである。
論文 参考訳(メタデータ) (2024-04-13T10:01:58Z) - Multi-modal Stance Detection: New Datasets and Model [56.97470987479277]
テキストと画像からなるツイートに対するマルチモーダル姿勢検出について検討する。
我々は、シンプルで効果的なマルチモーダル・プロンプト・チューニング・フレームワーク(TMPT)を提案する。
TMPTはマルチモーダル姿勢検出における最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-22T05:24:19Z) - EDIS: Entity-Driven Image Search over Multimodal Web Content [95.40238328527931]
textbfEntity-textbfDriven textbfImage textbfSearch (EDIS)は、ニュース領域におけるクロスモーダル画像検索のためのデータセットである。
EDISは、実際の検索エンジンの結果から100万のWebイメージとキュレートされたデータセットで構成され、各イメージはテキスト記述と組み合わせられている。
論文 参考訳(メタデータ) (2023-05-23T02:59:19Z) - Iterative Adversarial Attack on Image-guided Story Ending Generation [37.42908817585858]
マルチモーダル学習は、画像やテキストなどの様々なソースからの情報を統合できるモデルを開発することを含む。
最近のIgSEGモデルのバックボーンであるディープニューラルネットワークは、敵のサンプルに対して脆弱である。
画像とテキストのモダリティ攻撃を融合させる反復的逆攻撃法(Iterative- attack)を提案する。
論文 参考訳(メタデータ) (2023-05-16T06:19:03Z) - M2HF: Multi-level Multi-modal Hybrid Fusion for Text-Video Retrieval [34.343617836027725]
本稿では,テキストクエリとビデオ中の各モダリティコンテンツ間の包括的相互作用を探索するマルチレベルマルチモーダルハイブリッドフュージョンネットワークを提案する。
私たちのフレームワークは,アンサンブルの方法とエンドツーエンドの方法を含む,2種類のトレーニング戦略を提供します。
論文 参考訳(メタデータ) (2022-08-16T10:51:37Z) - MHMS: Multimodal Hierarchical Multimedia Summarization [80.18786847090522]
視覚領域と言語領域を相互作用させることにより,マルチモーダル階層型マルチメディア要約(MHMS)フレームワークを提案する。
本手法は,ビデオとテキストのセグメンテーションと要約モジュールをそれぞれ含んでいる。
ドメイン間のアライメントの目的を最適な輸送距離で定式化し、代表とテキストの要約を生成する。
論文 参考訳(メタデータ) (2022-04-07T21:00:40Z) - FiLMing Multimodal Sarcasm Detection with Attention [0.7340017786387767]
サルカスムの検出は、意図された意味がその表面的な意味によって示されるものと異なる自然言語表現を特定する。
本稿では,入力テキストと画像属性のコンテキスト不整合を組み込むために,RoBERTaモデルとコアテンション層を用いた新しいアーキテクチャを提案する。
提案手法は,Twitterのマルチモーダル検出データセットの6.14%のF1スコアにおいて,既存の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-09T06:33:29Z) - Floods Detection in Twitter Text and Images [4.5848302154106815]
本稿では,実世界の洪水イベントを検出するためにソーシャルメディアからテキストコンテンツと視覚コンテンツを分析し,組み合わせることを目的とする。
テキストベースの洪水イベント検出には,BOW(Bog of Words)とBertのイタリア語版に依存する3つの方法を用いる。
ビジュアル分析では、ImageNetで事前トレーニングされた複数の最先端のディープモデルを介して抽出された機能に依存します。
論文 参考訳(メタデータ) (2020-11-30T16:08:19Z) - Multimodal Categorization of Crisis Events in Social Media [81.07061295887172]
本稿では,画像とテキストの両方を入力として利用するマルチモーダル融合法を提案する。
特に、弱モダリティから非形式的および誤解を招くコンポーネントをフィルタリングできるクロスアテンションモジュールを導入する。
本手法は,3つの危機関連タスクにおいて,一様アプローチと強いマルチモーダルベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2020-04-10T06:31:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。