論文の概要: Floods Detection in Twitter Text and Images
- arxiv url: http://arxiv.org/abs/2011.14943v1
- Date: Mon, 30 Nov 2020 16:08:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-07 01:24:22.707042
- Title: Floods Detection in Twitter Text and Images
- Title(参考訳): Twitterテキストと画像における洪水検出
- Authors: Naina Said, Kashif Ahmad, Asma Gul, Nasir Ahmad, Ala Al-Fuqaha
- Abstract要約: 本稿では,実世界の洪水イベントを検出するためにソーシャルメディアからテキストコンテンツと視覚コンテンツを分析し,組み合わせることを目的とする。
テキストベースの洪水イベント検出には,BOW(Bog of Words)とBertのイタリア語版に依存する3つの方法を用いる。
ビジュアル分析では、ImageNetで事前トレーニングされた複数の最先端のディープモデルを介して抽出された機能に依存します。
- 参考スコア(独自算出の注目度): 4.5848302154106815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present our methods for the MediaEval 2020 Flood Related
Multimedia task, which aims to analyze and combine textual and visual content
from social media for the detection of real-world flooding events. The task
mainly focuses on identifying floods related tweets relevant to a specific
area. We propose several schemes to address the challenge. For text-based flood
events detection, we use three different methods, relying on Bog of Words (BOW)
and an Italian Version of Bert individually and in combination, achieving an
F1-score of 0.77%, 0.68%, and 0.70% on the development set, respectively. For
the visual analysis, we rely on features extracted via multiple
state-of-the-art deep models pre-trained on ImageNet. The extracted features
are then used to train multiple individual classifiers whose scores are then
combined in a late fusion manner achieving an F1-score of 0.75%. For our
mandatory multi-modal run, we combine the classification scores obtained with
the best textual and visual schemes in a late fusion manner. Overall, better
results are obtained with the multimodal scheme achieving an F1-score of 0.80%
on the development set.
- Abstract(参考訳): 本稿では,ソーシャルメディアからテキストコンテンツとビジュアルコンテンツを分析し統合し,実世界の洪水イベントを検出することを目的とした,mediaeval 2020 flood related multimedia taskの手法を提案する。
このタスクは主に、特定の地域に関連する洪水に関連するツイートを特定することに焦点を当てている。
この課題に対処するためのいくつかのスキームを提案する。
テキストベースの洪水イベント検出には,BOW(Bog of Words)とBertのイタリア版を個別に,それぞれ0.77%,0.68%,0.70%のF1スコアを達成する3つの異なる手法を用いる。
ビジュアル分析には、imagenetで事前トレーニングされた複数の最先端のディープモデルから抽出された機能を利用する。
抽出された特徴は、複数の個別の分類器を訓練するために使用され、スコアは後期融合によって0.75%のf1スコアに達する。
必須のマルチモーダル実行に対しては,テキストと視覚の最良のスキームを,後期融合方式で比較した分類スコアを併用する。
全体としては、開発セット上で0.80%のf1-scoreを達成するマルチモーダルスキームによりより良い結果が得られる。
関連論文リスト
- ChartEye: A Deep Learning Framework for Chart Information Extraction [2.4936576553283287]
本研究では,グラフ情報抽出パイプラインにおける重要なステップに対するソリューションを提供する,ディープラーニングベースのフレームワークを提案する。
提案フレームワークは階層型視覚変換器をグラフ型およびテキストロール分類のタスクに用い,YOLOv7はテキスト検出に用いた。
提案手法は,F1スコアが0.97,テキストロール分類が0.91,テキスト検出が平均0.95,各段階において優れた性能を実現している。
論文 参考訳(メタデータ) (2024-08-28T20:22:39Z) - Textual Knowledge Matters: Cross-Modality Co-Teaching for Generalized
Visual Class Discovery [69.91441987063307]
Generalized Category Discovery (GCD)は、既知のカテゴリと未知のカテゴリの両方からラベルのないデータをクラスタすることを目的としている。
現在のGCD法は、新しい視覚カテゴリーを発見する際に、人間の認知過程の多様性知覚性を無視する視覚的手がかりのみに依存している。
マルチモーダルなGCDを実現するための2段階のTextGCDフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-12T07:06:50Z) - Align before Attend: Aligning Visual and Textual Features for Multimodal
Hateful Content Detection [4.997673761305336]
本稿では,マルチモーダルヘイトフルコンテンツ検出のためのコンテキスト認識型アテンションフレームワークを提案する。
Viz.MUTE(Bengali code-mixed)とMultiOFF(英語)の2つのベンチマークヘイトフルミームデータセットに対する提案手法の評価を行った。
論文 参考訳(メタデータ) (2024-02-15T06:34:15Z) - Unified Coarse-to-Fine Alignment for Video-Text Retrieval [71.85966033484597]
UCoFiAと呼ばれる統一粗粒配向モデルを提案する。
我々のモデルは、異なる粒度レベルで、モーダル間の類似情報をキャプチャする。
そこで,Sinkhorn-Knoppアルゴリズムを用いて各レベルの類似性を正規化し,それらを要約する。
論文 参考訳(メタデータ) (2023-09-18T19:04:37Z) - Generating EDU Extracts for Plan-Guided Summary Re-Ranking [77.7752504102925]
要約候補を生成して1つの要約を返す2段階のアプローチでは、標準的な単一ステップアプローチよりもROUGEスコアを改善することができる。
これらの問題に対処する再ランク付け候補を生成するための新しい手法を設計する。
広く使われている単一文書ニュース記事コーパスにおいて,以前に公表された手法よりも大きな関連性を示した。
論文 参考訳(メタデータ) (2023-05-28T17:22:04Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - End-to-End Zero-Shot HOI Detection via Vision and Language Knowledge
Distillation [86.41437210485932]
我々は、ゼロショットHOI検出を前進させ、同時に見えないHOIと見えないHOIの両方を検出することを目指している。
本稿では,視覚言語による知識蒸留によるエンドツーエンドのゼロショットHOI検出フレームワークを提案する。
本手法は, 従来のSOTAを8.92%, 全体の10.18%で上回っている。
論文 参考訳(メタデータ) (2022-04-01T07:27:19Z) - Deep Models for Visual Sentiment Analysis of Disaster-related Multimedia
Content [4.284841324544116]
本稿では,メディアエバル2021の課題,すなわち「視覚知覚分析:自然災害利用事例」に対する解決策を提案する。
この課題は、視聴者が知覚する感情と、ソーシャルメディア上で共有される自然災害関連画像によって伝達される感情メッセージを抽出し、分類することを目的としている。
提案したソリューションでは、主にImageNetで事前トレーニングされたInception-v3とVggNet-19という、最先端の2つのモデルに依存しています。
論文 参考訳(メタデータ) (2021-11-30T10:22:41Z) - MARMOT: A Deep Learning Framework for Constructing Multimodal
Representations for Vision-and-Language Tasks [0.0]
本稿では、モーダル変換(MARMOT)を用いた多モーダル表現と呼ばれる新しいヴィジュアル・アンド・ランゲージ・フレームワークを提案する。
MARMOTは、2016年アメリカ合衆国大統領選挙における選挙事件を報告しているツイートのマルチラベル分類において、20のカテゴリの19のアンサンブルテキストのみの分類器を上回っている。
論文 参考訳(メタデータ) (2021-09-23T17:48:48Z) - LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document
Understanding [49.941806975280045]
テキストとレイアウトの事前トレーニングは、視覚的に豊富な文書理解タスクで有効であることが証明されています。
テキスト,レイアウト,イメージをマルチモーダルフレームワークで事前学習することで,テキスト-bfLMv2を提示する。
論文 参考訳(メタデータ) (2020-12-29T13:01:52Z) - Flood Detection via Twitter Streams using Textual and Visual Features [5.615972945389011]
本稿では,MediaEval 2020 Flood-Related Multimedia Taskに対する提案手法を提案する。
このタスクは、Twitter上で共有されるマルチメディアコンテンツの洪水イベントを分析し、検出することを目的としている。
論文 参考訳(メタデータ) (2020-11-30T16:09:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。