論文の概要: TweetDIS: A Large Twitter Dataset for Natural Disasters Built using Weak
Supervision
- arxiv url: http://arxiv.org/abs/2207.04947v1
- Date: Mon, 11 Jul 2022 15:30:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 17:15:19.297318
- Title: TweetDIS: A Large Twitter Dataset for Natural Disasters Built using Weak
Supervision
- Title(参考訳): TweetDIS:Weak Supervisionを使って構築された自然災害のための大規模なTwitterデータセット
- Authors: Ramya Tekumalla and Juan M. Banda
- Abstract要約: ソーシャルメディアはしばしば、自然災害時のコミュニケーションのライフラインとして利用される。
本研究では,弱い監督力を用いて銀標準データセットをキュレートする。
その有用性を検証するために、弱い教師付きデータに基づいて機械学習モデルを訓練し、3種類の自然災害を識別する。
- 参考スコア(独自算出の注目度): 1.2400116527089997
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Social media is often utilized as a lifeline for communication during natural
disasters. Traditionally, natural disaster tweets are filtered from the Twitter
stream using the name of the natural disaster and the filtered tweets are sent
for human annotation. The process of human annotation to create labeled sets
for machine learning models is laborious, time consuming, at times inaccurate,
and more importantly not scalable in terms of size and real-time use. In this
work, we curate a silver standard dataset using weak supervision. In order to
validate its utility, we train machine learning models on the weakly supervised
data to identify three different types of natural disasters i.e earthquakes,
hurricanes and floods. Our results demonstrate that models trained on the
silver standard dataset achieved performance greater than 90% when classifying
a manually curated, gold-standard dataset. To enable reproducible research and
additional downstream utility, we release the silver standard dataset for the
scientific community.
- Abstract(参考訳): ソーシャルメディアはしばしば自然災害時のコミュニケーションのライフラインとして利用される。
伝統的に、自然災害ツイートは自然災害の名前を使ってTwitterストリームからフィルタリングされ、フィルターされたツイートは人間のアノテーションのために送られる。
機械学習モデルのラベル付きセットを作成するためのヒューマンアノテーションのプロセスは、手間がかかり、時間を消費し、時には不正確であり、サイズやリアルタイム使用の面では、より重要ではない。
本研究では,銀の標準データセットを弱い監督を用いて収集する。
その有用性を検証するために,弱い教師データに基づく機械学習モデルを訓練し,地震,ハリケーン,洪水の3種類の自然災害を識別する。
その結果、銀標準データセットでトレーニングされたモデルは、手作業でキュレートされた金標準データセットを分類する際に90%以上の性能を達成した。
再現可能な研究と下流ユーティリティを実現するため,我々は科学コミュニティのための銀標準データセットをリリースする。
関連論文リスト
- CrisisSense-LLM: Instruction Fine-Tuned Large Language Model for Multi-label Social Media Text Classification in Disaster Informatics [49.2719253711215]
本研究では,事前学習型大規模言語モデル(LLM)の強化による災害テキスト分類への新たなアプローチを提案する。
本手法では,災害関連ツイートから包括的インストラクションデータセットを作成し,それをオープンソース LLM の微調整に用いる。
この微調整モデルでは,災害関連情報の種類,情報化,人的援助の関与など,複数の側面を同時に分類することができる。
論文 参考訳(メタデータ) (2024-06-16T23:01:10Z) - CrisisMatch: Semi-Supervised Few-Shot Learning for Fine-Grained Disaster
Tweet Classification [51.58605842457186]
半教師付き, 少数ショットの学習環境下で, 微粒な災害ツイート分類モデルを提案する。
私たちのモデルであるCrisisMatchは、ラベルなしデータと大量のラベルなしデータを用いて、ツイートを関心の細かいクラスに効果的に分類する。
論文 参考訳(メタデータ) (2023-10-23T07:01:09Z) - Sarcasm Detection in a Disaster Context [103.93691731605163]
HurricaneSARCは,意図した皮肉に注釈を付けた15,000ツイートのデータセットである。
私たちの最高のモデルは、データセットで最大0.70F1を得ることができます。
論文 参考訳(メタデータ) (2023-08-16T05:58:12Z) - Harnessing the Power of Text-image Contrastive Models for Automatic
Detection of Online Misinformation [50.46219766161111]
誤情報識別の領域における構成的学習を探求する自己学習モデルを構築した。
本モデルでは、トレーニングデータが不十分な場合、非マッチング画像-テキストペア検出の優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-19T02:53:59Z) - SurvivalGAN: Generating Time-to-Event Data for Survival Analysis [121.84429525403694]
検閲と時間的地平線の不均衡は、生成モデルに生存分析に特有の3つの新しい障害モードを経験させる。
本稿では,検閲やイベントの地平線における不均衡に対処し,生存データを扱う生成モデルであるSurvivalGANを提案する。
医療データセットに関する広範な実験により,本手法の評価を行った。
論文 参考訳(メタデータ) (2023-02-24T17:03:51Z) - Spatio-Temporal Graph Contrastive Learning [49.132528449909316]
これらの問題に対処するための時空間グラフコントラスト学習フレームワーク(STGCL)を提案する。
グラフ構造、時間領域、周波数領域の4種類のデータ拡張について詳述する。
我々のフレームワークは、実世界の3つのデータセットと4つの最先端モデルで評価されている。
論文 参考訳(メタデータ) (2021-08-26T16:05:32Z) - HumAID: Human-Annotated Disaster Incidents Data from Twitter with Deep
Learning Benchmarks [5.937482215664902]
ソーシャルメディアのコンテンツは、どんなアプリケーションでも直接使うにはうるさい。
効果的な消費と意思決定を促進するために、利用可能なコンテンツをフィルタリング、分類、および簡潔に要約することが重要です。
19の災害イベントで2400万ツイートのプールから抽出された77万ツイートの大規模なデータセットを紹介します。
論文 参考訳(メタデータ) (2021-04-07T12:29:36Z) - A multi-modal approach towards mining social media data during natural
disasters -- a case study of Hurricane Irma [1.9259288012724252]
私たちは16,598のユーザーから54,383のTwitterメッセージ(784Kジオロケートメッセージ)を使用して、4つの独立したモデルを開発し、関連性のためにデータをフィルタリングします。
4つのモデルはすべて独立してテストされ、組み合わせてツイートを素早くフィルタリングおよび視覚化できます。
論文 参考訳(メタデータ) (2021-01-02T17:08:53Z) - Semantic-based End-to-End Learning for Typhoon Intensity Prediction [0.2580765958706853]
既存の技術では、過去の環境データからやってくる災害を予測するために、さまざまな機械学習アプローチを採用している。
ソーシャルメディアの投稿(例えば、つぶやき)は非常に非公式であり、コンテンツは限られている。
災害関連つぶやきや環境データから学習し,台風の震度予測を改善するためのエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-22T01:13:20Z) - Localized Flood DetectionWith Minimal Labeled Social Media Data Using
Transfer Learning [3.964047152162558]
ソーシャルセンシングモデル(Twitter)を用いた局所的な洪水検出の問題点について検討する。
本研究は,緊急意思決定や救助活動,早期警戒等のために,洪水関連のアップデートや通知を市当局に提供する上で極めて有効である。
論文 参考訳(メタデータ) (2020-02-10T20:17:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。