論文の概要: CrisisBench: Benchmarking Crisis-related Social Media Datasets for
Humanitarian Information Processing
- arxiv url: http://arxiv.org/abs/2004.06774v4
- Date: Sat, 17 Apr 2021 16:10:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 10:06:40.217356
- Title: CrisisBench: Benchmarking Crisis-related Social Media Datasets for
Humanitarian Information Processing
- Title(参考訳): CrisisBench:人道情報処理のための危機関連ソーシャルメディアデータセットのベンチマーク
- Authors: Firoj Alam, Hassan Sajjad, Muhammad Imran and Ferda Ofli
- Abstract要約: 我々は8つの注釈付きデータセットを統合し、166.1kと141.5kのつぶやきをテクスチャインフォームネスとテキスト指向の分類タスクに提供します。
我々は、CNN、fastText、transformerなど、いくつかのディープラーニングアーカイブを用いて、バイナリクラスとマルチクラスの両方の分類タスクのベンチマークを提供する。
- 参考スコア(独自算出の注目度): 13.11283003017537
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Time-critical analysis of social media streams is important for humanitarian
organizations for planing rapid response during disasters. The \textit{crisis
informatics} research community has developed several techniques and systems
for processing and classifying big crisis-related data posted on social media.
However, due to the dispersed nature of the datasets used in the literature
(e.g., for training models), it is not possible to compare the results and
measure the progress made towards building better models for crisis informatics
tasks. In this work, we attempt to bridge this gap by combining various
existing crisis-related datasets. We consolidate eight human-annotated datasets
and provide 166.1k and 141.5k tweets for \textit{informativeness} and
\textit{humanitarian} classification tasks, respectively. We believe that the
consolidated dataset will help train more sophisticated models. Moreover, we
provide benchmarks for both binary and multiclass classification tasks using
several deep learning architecrures including, CNN, fastText, and transformers.
We make the dataset and scripts available at:
https://crisisnlp.qcri.org/crisis_datasets_benchmarks.html
- Abstract(参考訳): 災害時の迅速な対応を計画する人道的組織にとって、ソーシャルメディアストリームの時間的クリティカルな分析が重要である。
textit{crisis informatics}研究コミュニティは、ソーシャルメディアに投稿された大きな危機関連データを処理し分類するための、いくつかの技術とシステムを開発した。
しかし、文献(例えば、トレーニングモデル)で使用されるデータセットの分散性のため、結果を比較して危機情報処理のためのより良いモデルを構築するための進捗を測定することは不可能である。
本研究では,既存の危機関連データセットを組み合わせることで,このギャップを埋めることを試みる。
我々は、8つの人称注釈データセットを統合し、166.1k と 141.5k のつぶやきを \textit{informativeness} と \textit{ Humanitarian} の分類タスクにそれぞれ提供する。
統合データセットは、より高度なモデルをトレーニングするのに役立ちます。
さらに、CNN、fastText、transformerなど、いくつかのディープラーニングアーカイブを用いて、バイナリクラスとマルチクラスの両方の分類タスクのベンチマークを提供する。
https://crisisnlp.qcri.org/crisis_datasets_benchmarks.html
関連論文リスト
- CrisisSense-LLM: Instruction Fine-Tuned Large Language Model for Multi-label Social Media Text Classification in Disaster Informatics [49.2719253711215]
本研究では,事前学習型大規模言語モデル(LLM)の強化による災害テキスト分類への新たなアプローチを提案する。
本手法では,災害関連ツイートから包括的インストラクションデータセットを作成し,それをオープンソース LLM の微調整に用いる。
この微調整モデルでは,災害関連情報の種類,情報化,人的援助の関与など,複数の側面を同時に分類することができる。
論文 参考訳(メタデータ) (2024-06-16T23:01:10Z) - CrisisMatch: Semi-Supervised Few-Shot Learning for Fine-Grained Disaster
Tweet Classification [51.58605842457186]
半教師付き, 少数ショットの学習環境下で, 微粒な災害ツイート分類モデルを提案する。
私たちのモデルであるCrisisMatchは、ラベルなしデータと大量のラベルなしデータを用いて、ツイートを関心の細かいクラスに効果的に分類する。
論文 参考訳(メタデータ) (2023-10-23T07:01:09Z) - DeCrisisMB: Debiased Semi-Supervised Learning for Crisis Tweet
Classification via Memory Bank [52.20298962359658]
危機イベントにおいて、人々は、状況、警告、アドバイス、サポートに関する情報を広めるために、Twitterのようなソーシャルメディアプラットフォームを使うことが多い。
完全に教師されたアプローチでは、大量のデータを注釈付けする必要があります。
半教師付きモデルは偏りがあり、特定のクラスでは適度に機能し、他のクラスでは極めて貧弱である。
本稿では,メモリバンクを用いて,各学習クラスから生成された擬似ラベルを等しくサンプリングする,単純かつ効果的なデバイアス処理手法であるDeCrisisMBを提案する。
論文 参考訳(メタデータ) (2023-10-23T05:25:51Z) - CrisisTransformers: Pre-trained language models and sentence encoders for crisis-related social media texts [3.690904966341072]
ソーシャルメディアプラットフォームは危機コミュニケーションにおいて重要な役割を担っているが、危機に関連するソーシャルメディアのテキストを分析することは、その非公式な性質のため困難である。
本研究では,事前訓練された言語モデルと文エンコーダのアンサンブルであるCrisisTransformersを紹介した。
論文 参考訳(メタデータ) (2023-09-11T14:36:16Z) - CrisisLTLSum: A Benchmark for Local Crisis Event Timeline Extraction and
Summarization [62.77066949111921]
本稿では,現在までに利用可能な地域危機イベントタイムラインの最大のデータセットであるCrisisLTLSumについて述べる。
CrisisLTLSumには、山火事、地元の火災、交通、嵐の4つの領域にわたる1000の危機イベントタイムラインが含まれている。
最初の実験では, 両タスクの人的性能と比較して, 強いベースライン性能の間に有意な差があることが示唆された。
論文 参考訳(メタデータ) (2022-10-25T17:32:40Z) - Cross-Lingual and Cross-Domain Crisis Classification for Low-Resource
Scenarios [4.147346416230273]
本稿では,言語間およびドメイン間ラベル付きデータを活用することで,危機事象に関連するメッセージを自動的に分類するタスクについて検討する。
私たちのゴールは、高リソース言語のラベル付きデータを使用して、他の(低リソースの)言語や、新しい(以前は見えなかった)危機状況からのメッセージを分類することです。
我々の経験的発見は、英語の危機イベントのデータを利用して、スペイン語やイタリア語など他の言語で同じ種類の出来事を分類することが可能であることを示している。
論文 参考訳(メタデータ) (2022-09-05T20:57:23Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Kubric: A scalable dataset generator [73.78485189435729]
KubricはPythonフレームワークで、PyBulletやBlenderとインターフェースして写真リアリスティックなシーンを生成する。
本研究では,3次元NeRFモデルの研究から光フロー推定まで,13種類の異なるデータセットを提示することで,Kubricの有効性を実証する。
論文 参考訳(メタデータ) (2022-03-07T18:13:59Z) - HumAID: Human-Annotated Disaster Incidents Data from Twitter with Deep
Learning Benchmarks [5.937482215664902]
ソーシャルメディアのコンテンツは、どんなアプリケーションでも直接使うにはうるさい。
効果的な消費と意思決定を促進するために、利用可能なコンテンツをフィルタリング、分類、および簡潔に要約することが重要です。
19の災害イベントで2400万ツイートのプールから抽出された77万ツイートの大規模なデータセットを紹介します。
論文 参考訳(メタデータ) (2021-04-07T12:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。