論文の概要: CrisiText: A dataset of warning messages for LLM training in emergency communication
- arxiv url: http://arxiv.org/abs/2510.09243v2
- Date: Mon, 13 Oct 2025 18:43:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 12:06:24.24643
- Title: CrisiText: A dataset of warning messages for LLM training in emergency communication
- Title(参考訳): CrisiText:緊急通信におけるLCMトレーニングのための警告メッセージのデータセット
- Authors: Giacomo Gonella, Gian Maria Campedelli, Stefano Menini, Marco Guerini,
- Abstract要約: 今回紹介するCrisiTextは,13種類の危機シナリオを対象とした警告メッセージ生成のための,最初の大規模データセットだ。
データセットには、このようなイベントの前後で民間人を支援することを目的とした40万以上の警告メッセージが含まれている。
- 参考スコア(独自算出の注目度): 8.549683389697126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effectively identifying threats and mitigating their potential damage during crisis situations, such as natural disasters or violent attacks, is paramount for safeguarding endangered individuals. To tackle these challenges, AI has been used in assisting humans in emergency situations. Still, the use of NLP techniques remains limited and mostly focuses on classification tasks. The significant potential of timely warning message generation using NLG architectures, however, has been largely overlooked. In this paper we present CrisiText, the first large-scale dataset for the generation of warning messages across 13 different types of crisis scenarios. The dataset contains more than 400,000 warning messages (spanning almost 18,000 crisis situations) aimed at assisting civilians during and after such events. To generate the dataset, we started from existing crisis descriptions and created chains of events related to the scenarios. Each event was then paired with a warning message. The generations follow experts' written guidelines to ensure correct terminology and factuality of their suggestions. Additionally, each message is accompanied by three suboptimal warning types to allow for the study of different NLG approaches. To this end, we conducted a series of experiments comparing supervised fine-tuning setups with preference alignment, zero-shot, and few-shot approaches. We further assessed model performance in out-of-distribution scenarios and evaluated the effectiveness of an automatic post-editor.
- Abstract(参考訳): 脅威を効果的に特定し、自然災害や暴力的攻撃といった危機的状況における潜在的な損害を軽減することは、危険にさらされた個人を守る上で最重要課題である。
これらの課題に対処するために、AIは緊急時の人を助けるために使われてきた。
それでも、NLP技術の使用は限定的であり、主に分類タスクに焦点を当てている。
しかし、NLGアーキテクチャを使ったタイムリーなメッセージ生成の有意な可能性は、ほとんど見過ごされてしまっている。
本稿では,13種類の危機シナリオを対象とした警告メッセージ生成のための,最初の大規模データセットであるCrisiTextを紹介する。
データセットには40万件以上の警告メッセージ(約1万8000件の危機状況)が含まれており、これらのイベントの前後で民間人を支援することを目的としている。
データセットを生成するために、既存の危機記述から始まり、シナリオに関連する一連のイベントを作成しました。
各イベントは警告メッセージとペアリングされる。
世代は専門家のガイドラインに従い、提案の正しい用語と事実性を保証する。
さらに、各メッセージには3つの準最適警告タイプが伴い、異なるNLGアプローチの研究を可能にする。
この目的のために、教師付き微調整装置を優先調整、ゼロショット、少数ショットアプローチと比較した一連の実験を行った。
さらに,アウト・オブ・ディストリビューションシナリオにおけるモデル性能を評価し,自動編集者の有効性を評価した。
関連論文リスト
- CrisisSense-LLM: Instruction Fine-Tuned Large Language Model for Multi-label Social Media Text Classification in Disaster Informatics [50.122541222825156]
本研究では,事前学習型大規模言語モデル(LLM)の強化による災害テキスト分類への新たなアプローチを提案する。
本手法では,災害関連ツイートから包括的インストラクションデータセットを作成し,それをオープンソース LLM の微調整に用いる。
この微調整モデルでは,災害関連情報の種類,情報化,人的援助の関与など,複数の側面を同時に分類することができる。
論文 参考訳(メタデータ) (2024-06-16T23:01:10Z) - CrisisMatch: Semi-Supervised Few-Shot Learning for Fine-Grained Disaster
Tweet Classification [51.58605842457186]
半教師付き, 少数ショットの学習環境下で, 微粒な災害ツイート分類モデルを提案する。
私たちのモデルであるCrisisMatchは、ラベルなしデータと大量のラベルなしデータを用いて、ツイートを関心の細かいクラスに効果的に分類する。
論文 参考訳(メタデータ) (2023-10-23T07:01:09Z) - DeCrisisMB: Debiased Semi-Supervised Learning for Crisis Tweet
Classification via Memory Bank [52.20298962359658]
危機イベントにおいて、人々は、状況、警告、アドバイス、サポートに関する情報を広めるために、Twitterのようなソーシャルメディアプラットフォームを使うことが多い。
完全に教師されたアプローチでは、大量のデータを注釈付けする必要があります。
半教師付きモデルは偏りがあり、特定のクラスでは適度に機能し、他のクラスでは極めて貧弱である。
本稿では,メモリバンクを用いて,各学習クラスから生成された擬似ラベルを等しくサンプリングする,単純かつ効果的なデバイアス処理手法であるDeCrisisMBを提案する。
論文 参考訳(メタデータ) (2023-10-23T05:25:51Z) - CrisisTransformers: Pre-trained language models and sentence encoders for crisis-related social media texts [3.690904966341072]
ソーシャルメディアプラットフォームは危機コミュニケーションにおいて重要な役割を担っているが、危機に関連するソーシャルメディアのテキストを分析することは、その非公式な性質のため困難である。
本研究では,事前訓練された言語モデルと文エンコーダのアンサンブルであるCrisisTransformersを紹介した。
論文 参考訳(メタデータ) (2023-09-11T14:36:16Z) - Coping with low data availability for social media crisis message
categorisation [3.0255457622022495]
この論文は、緊急対応のための危機メッセージの分類において、データ可用性の低い課題に対処することに焦点を当てている。
これはまず、過去の危機イベントから注釈付きデータから分類モデルを学ぶことを含む、この問題の解決策としてドメイン適応を提示する。
モデルが過去の複数のイベントに対してトレーニングされ、進行中の複数のイベントに適応する多対多適応では、マルチタスク学習アプローチが提案される。
論文 参考訳(メタデータ) (2023-05-26T19:08:24Z) - CrisisLTLSum: A Benchmark for Local Crisis Event Timeline Extraction and
Summarization [62.77066949111921]
本稿では,現在までに利用可能な地域危機イベントタイムラインの最大のデータセットであるCrisisLTLSumについて述べる。
CrisisLTLSumには、山火事、地元の火災、交通、嵐の4つの領域にわたる1000の危機イベントタイムラインが含まれている。
最初の実験では, 両タスクの人的性能と比較して, 強いベースライン性能の間に有意な差があることが示唆された。
論文 参考訳(メタデータ) (2022-10-25T17:32:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。