論文の概要: HumAID: Human-Annotated Disaster Incidents Data from Twitter with Deep
Learning Benchmarks
- arxiv url: http://arxiv.org/abs/2104.03090v2
- Date: Thu, 8 Apr 2021 09:12:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-09 10:37:57.564615
- Title: HumAID: Human-Annotated Disaster Incidents Data from Twitter with Deep
Learning Benchmarks
- Title(参考訳): HumAID: ディープラーニングベンチマークを備えたTwitterの人手による災害データ
- Authors: Firoj Alam, Umair Qazi, Muhammad Imran, Ferda Ofli
- Abstract要約: ソーシャルメディアのコンテンツは、どんなアプリケーションでも直接使うにはうるさい。
効果的な消費と意思決定を促進するために、利用可能なコンテンツをフィルタリング、分類、および簡潔に要約することが重要です。
19の災害イベントで2400万ツイートのプールから抽出された77万ツイートの大規模なデータセットを紹介します。
- 参考スコア(独自算出の注目度): 5.937482215664902
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Social networks are widely used for information consumption and
dissemination, especially during time-critical events such as natural
disasters. Despite its significantly large volume, social media content is
often too noisy for direct use in any application. Therefore, it is important
to filter, categorize, and concisely summarize the available content to
facilitate effective consumption and decision-making. To address such issues
automatic classification systems have been developed using supervised modeling
approaches, thanks to the earlier efforts on creating labeled datasets.
However, existing datasets are limited in different aspects (e.g., size,
contains duplicates) and less suitable to support more advanced and data-hungry
deep learning models. In this paper, we present a new large-scale dataset with
~77K human-labeled tweets, sampled from a pool of ~24 million tweets across 19
disaster events that happened between 2016 and 2019. Moreover, we propose a
data collection and sampling pipeline, which is important for social media data
sampling for human annotation. We report multiclass classification results
using classic and deep learning (fastText and transformer) based models to set
the ground for future studies. The dataset and associated resources are
publicly available. https://crisisnlp.qcri.org/humaid_dataset.html
- Abstract(参考訳): ソーシャルネットワークは情報消費や普及に広く使われており、特に自然災害などの時間的危機的な出来事で使われている。
その膨大な量にもかかわらず、ソーシャルメディアのコンテンツはどんなアプリケーションでも直接使うにはうるさすぎることが多い。
したがって、効率的な消費と意思決定を容易にするために、利用可能なコンテンツをフィルタリング、分類、簡潔に要約することが重要である。
このような問題に対処するために、ラベル付きデータセットの作成に先立って、教師付きモデリングアプローチを用いて自動分類システムが開発された。
しかし、既存のデータセットは異なる側面(例えば、サイズ、重複を含む)に限定されており、より高度でデータに精通したディープラーニングモデルをサポートするには適していない。
本稿では,2016年から2019年にかけて発生した19の災害イベントを対象に,約2400万ツイートのプールから抽出した,約77万ツイートの大規模データセットを提案する。
また,人間のアノテーションに対するソーシャルメディアデータサンプリングにおいて重要なデータ収集・サンプリングパイプラインを提案する。
本稿では,古典的および深層学習(fastTextおよびtransformer)モデルを用いた多クラス分類結果について報告する。
データセットと関連するリソースが公開されている。
https://crisisnlp.qcri.org/humaid_dataset.html
関連論文リスト
- Active Learning for Identifying Disaster-Related Tweets: A Comparison with Keyword Filtering and Generic Fine-Tuning [0.25602836891933073]
大量の非構造データの中から災害関連ポストを特定することは困難である。
従来の手法では、キーワードフィルタリングやトピックモデリング、分類に基づく手法を使って投稿を識別することが多い。
本研究では,災害関連つぶやきを識別するためのアクティブラーニング(AL)の可能性を検討する。
論文 参考訳(メタデータ) (2024-08-19T11:40:20Z) - From Random to Informed Data Selection: A Diversity-Based Approach to
Optimize Human Annotation and Few-Shot Learning [38.30983556062276]
自然言語処理における大きな課題は、教師付き学習のための注釈付きデータを取得することである。
クラウドソーシングは、アノテータの経験、一貫性、バイアスに関連する問題を導入する。
本稿では,数ショット学習のための小さなデータセットを構築するための,自動的および情報的データ選択アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-01-24T04:57:32Z) - CrisisMatch: Semi-Supervised Few-Shot Learning for Fine-Grained Disaster
Tweet Classification [51.58605842457186]
半教師付き, 少数ショットの学習環境下で, 微粒な災害ツイート分類モデルを提案する。
私たちのモデルであるCrisisMatchは、ラベルなしデータと大量のラベルなしデータを用いて、ツイートを関心の細かいクラスに効果的に分類する。
論文 参考訳(メタデータ) (2023-10-23T07:01:09Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - CvS: Classification via Segmentation For Small Datasets [52.821178654631254]
本稿では,分類ラベルをセグメントマップの予測から導出する小型データセットのコスト効率の高い分類器であるCvSを提案する。
我々は,CvSが従来の手法よりもはるかに高い分類結果が得られることを示す多種多様な問題に対して,本フレームワークの有効性を評価する。
論文 参考訳(メタデータ) (2021-10-29T18:41:15Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - The Surprising Performance of Simple Baselines for Misinformation
Detection [4.060731229044571]
我々は、現代のトランスフォーマーベースの言語モデルの広いセットのパフォーマンスを調べます。
誤情報検出の新たな手法の創出と評価のベースラインとして,本フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-14T16:25:22Z) - Event-Related Bias Removal for Real-time Disaster Events [67.2965372987723]
ソーシャルメディアは、自然災害や大量攻撃などの危機事象に関する情報を共有する重要なツールとなっている。
有用な情報を含む実行可能なポストを検出するには、大量のデータをリアルタイムに高速に分析する必要がある。
我々は、潜在事象固有のバイアスを除去し、ツイート重要度分類の性能を向上させるために、敵対的ニューラルモデルを訓練する。
論文 参考訳(メタデータ) (2020-11-02T02:03:07Z) - I-AID: Identifying Actionable Information from Disaster-related Tweets [0.0]
ソーシャルメディアは、被災者、寄付、支援要請に関する貴重なデータを提供することによって、災害管理において重要な役割を担っている。
ツイートを自動的にマルチラベル情報タイプに分類するマルチモデルアプローチであるI-AIDを提案する。
以上の結果から,I-AIDはTREC-ISデータセットおよびCOVID-19 Tweetsにおいて,平均F1得点の6%,+4%において最先端のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2020-08-04T19:07:50Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。