論文の概要: CrisisTransformers: Pre-trained language models and sentence encoders for crisis-related social media texts
- arxiv url: http://arxiv.org/abs/2309.05494v3
- Date: Thu, 11 Apr 2024 05:25:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 19:18:11.982004
- Title: CrisisTransformers: Pre-trained language models and sentence encoders for crisis-related social media texts
- Title(参考訳): Crisis Transformers:危機関連ソーシャルメディアテキストのための事前訓練された言語モデルと文エンコーダ
- Authors: Rabindra Lamsal, Maria Rodriguez Read, Shanika Karunasekera,
- Abstract要約: ソーシャルメディアプラットフォームは危機コミュニケーションにおいて重要な役割を担っているが、危機に関連するソーシャルメディアのテキストを分析することは、その非公式な性質のため困難である。
本研究では,事前訓練された言語モデルと文エンコーダのアンサンブルであるCrisisTransformersを紹介した。
- 参考スコア(独自算出の注目度): 3.690904966341072
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Social media platforms play an essential role in crisis communication, but analyzing crisis-related social media texts is challenging due to their informal nature. Transformer-based pre-trained models like BERT and RoBERTa have shown success in various NLP tasks, but they are not tailored for crisis-related texts. Furthermore, general-purpose sentence encoders are used to generate sentence embeddings, regardless of the textual complexities in crisis-related texts. Advances in applications like text classification, semantic search, and clustering contribute to the effective processing of crisis-related texts, which is essential for emergency responders to gain a comprehensive view of a crisis event, whether historical or real-time. To address these gaps in crisis informatics literature, this study introduces CrisisTransformers, an ensemble of pre-trained language models and sentence encoders trained on an extensive corpus of over 15 billion word tokens from tweets associated with more than 30 crisis events, including disease outbreaks, natural disasters, conflicts, and other critical incidents. We evaluate existing models and CrisisTransformers on 18 crisis-specific public datasets. Our pre-trained models outperform strong baselines across all datasets in classification tasks, and our best-performing sentence encoder improves the state-of-the-art by 17.43% in sentence encoding tasks. Additionally, we investigate the impact of model initialization on convergence and evaluate the significance of domain-specific models in generating semantically meaningful sentence embeddings. The models are publicly available at: https://huggingface.co/crisistransformers
- Abstract(参考訳): ソーシャルメディアプラットフォームは危機コミュニケーションにおいて重要な役割を担っているが、危機に関連するソーシャルメディアのテキストを分析することは、その非公式な性質のため困難である。
BERTやRoBERTaのようなトランスフォーマーベースの事前学習モデルは、様々なNLPタスクで成功したが、危機関連のテキストには適していない。
さらに,危機関連テキストのテキストの複雑さに関わらず,汎用文エンコーダを用いて文埋め込みを生成する。
テキスト分類、セマンティック検索、クラスタリングなどの応用の進歩は、危機関連のテキストの効果的な処理に寄与する。
この研究は、危機情報文学におけるこれらのギャップを解決するために、CrisisTransformersを紹介します。CrisisTransformersは、事前訓練された言語モデルと文エンコーダのアンサンブルで、病気の発生、自然災害、紛争、その他の重大な出来事を含む30以上の危機イベントに関連するツイートから、150億以上のワードトークンの広範なコーパスで訓練された。
我々は18の危機特化公開データセット上で既存のモデルと危機トランスフォーマーを評価した。
事前学習されたモデルは、分類タスクにおいて、すべてのデータセットで強いベースラインを上回り、最高のパフォーマンスの文エンコーダは、文章エンコーディングタスクの17.43%の最先端を改善する。
さらに,モデル初期化が収束に与える影響について検討し,意味的に意味のある文の埋め込みを生成する上でのドメイン固有モデルの重要性を評価する。
モデルは、https://huggingface.co/crisistransformers.comで公開されている。
関連論文リスト
- CrisisSense-LLM: Instruction Fine-Tuned Large Language Model for Multi-label Social Media Text Classification in Disaster Informatics [49.2719253711215]
本研究では,事前学習型大規模言語モデル(LLM)の強化による災害テキスト分類への新たなアプローチを提案する。
本手法では,災害関連ツイートから包括的インストラクションデータセットを作成し,それをオープンソース LLM の微調整に用いる。
この微調整モデルでは,災害関連情報の種類,情報化,人的援助の関与など,複数の側面を同時に分類することができる。
論文 参考訳(メタデータ) (2024-06-16T23:01:10Z) - Semantically Enriched Cross-Lingual Sentence Embeddings for Crisis-related Social Media Texts [3.690904966341072]
危機関連ソーシャルメディアテキストのセマンティック検索やクラスタリングなどのタスクは、危機談話の理解を深める。
事前訓練された言語モデルは危機情報学において高度な性能を持つが、文脈埋め込みには意味のある意味が欠けている。
本稿では,危機関連ソーシャルメディアテキストを50以上の言語に埋め込んだ多言語文エンコーダを提案する。
論文 参考訳(メタデータ) (2024-03-25T10:44:38Z) - CrisisMatch: Semi-Supervised Few-Shot Learning for Fine-Grained Disaster
Tweet Classification [51.58605842457186]
半教師付き, 少数ショットの学習環境下で, 微粒な災害ツイート分類モデルを提案する。
私たちのモデルであるCrisisMatchは、ラベルなしデータと大量のラベルなしデータを用いて、ツイートを関心の細かいクラスに効果的に分類する。
論文 参考訳(メタデータ) (2023-10-23T07:01:09Z) - DeCrisisMB: Debiased Semi-Supervised Learning for Crisis Tweet
Classification via Memory Bank [52.20298962359658]
危機イベントにおいて、人々は、状況、警告、アドバイス、サポートに関する情報を広めるために、Twitterのようなソーシャルメディアプラットフォームを使うことが多い。
完全に教師されたアプローチでは、大量のデータを注釈付けする必要があります。
半教師付きモデルは偏りがあり、特定のクラスでは適度に機能し、他のクラスでは極めて貧弱である。
本稿では,メモリバンクを用いて,各学習クラスから生成された擬似ラベルを等しくサンプリングする,単純かつ効果的なデバイアス処理手法であるDeCrisisMBを提案する。
論文 参考訳(メタデータ) (2023-10-23T05:25:51Z) - Coping with low data availability for social media crisis message
categorisation [3.0255457622022495]
この論文は、緊急対応のための危機メッセージの分類において、データ可用性の低い課題に対処することに焦点を当てている。
これはまず、過去の危機イベントから注釈付きデータから分類モデルを学ぶことを含む、この問題の解決策としてドメイン適応を提示する。
モデルが過去の複数のイベントに対してトレーニングされ、進行中の複数のイベントに適応する多対多適応では、マルチタスク学習アプローチが提案される。
論文 参考訳(メタデータ) (2023-05-26T19:08:24Z) - CrisisLTLSum: A Benchmark for Local Crisis Event Timeline Extraction and
Summarization [62.77066949111921]
本稿では,現在までに利用可能な地域危機イベントタイムラインの最大のデータセットであるCrisisLTLSumについて述べる。
CrisisLTLSumには、山火事、地元の火災、交通、嵐の4つの領域にわたる1000の危機イベントタイムラインが含まれている。
最初の実験では, 両タスクの人的性能と比較して, 強いベースライン性能の間に有意な差があることが示唆された。
論文 参考訳(メタデータ) (2022-10-25T17:32:40Z) - Cross-Lingual and Cross-Domain Crisis Classification for Low-Resource
Scenarios [4.147346416230273]
本稿では,言語間およびドメイン間ラベル付きデータを活用することで,危機事象に関連するメッセージを自動的に分類するタスクについて検討する。
私たちのゴールは、高リソース言語のラベル付きデータを使用して、他の(低リソースの)言語や、新しい(以前は見えなかった)危機状況からのメッセージを分類することです。
我々の経験的発見は、英語の危機イベントのデータを利用して、スペイン語やイタリア語など他の言語で同じ種類の出来事を分類することが可能であることを示している。
論文 参考訳(メタデータ) (2022-09-05T20:57:23Z) - Event-Related Bias Removal for Real-time Disaster Events [67.2965372987723]
ソーシャルメディアは、自然災害や大量攻撃などの危機事象に関する情報を共有する重要なツールとなっている。
有用な情報を含む実行可能なポストを検出するには、大量のデータをリアルタイムに高速に分析する必要がある。
我々は、潜在事象固有のバイアスを除去し、ツイート重要度分類の性能を向上させるために、敵対的ニューラルモデルを訓練する。
論文 参考訳(メタデータ) (2020-11-02T02:03:07Z) - CrisisBERT: a Robust Transformer for Crisis Classification and
Contextual Crisis Embedding [2.7718973516070684]
本稿では,危機検出と危機認識という2つの危機分類タスクのためのエンドツーエンドトランスフォーマーモデルを提案する。
私たちはまた、危機埋め込みのための注意ベースの文書レベルのコンテキスト埋め込みアーキテクチャであるCrisis2Vecを提案しました。
論文 参考訳(メタデータ) (2020-05-11T09:57:24Z) - CrisisBench: Benchmarking Crisis-related Social Media Datasets for
Humanitarian Information Processing [13.11283003017537]
我々は8つの注釈付きデータセットを統合し、166.1kと141.5kのつぶやきをテクスチャインフォームネスとテキスト指向の分類タスクに提供します。
我々は、CNN、fastText、transformerなど、いくつかのディープラーニングアーカイブを用いて、バイナリクラスとマルチクラスの両方の分類タスクのベンチマークを提供する。
論文 参考訳(メタデータ) (2020-04-14T19:51:04Z) - PALM: Pre-training an Autoencoding&Autoregressive Language Model for
Context-conditioned Generation [92.7366819044397]
自己指導型事前学習は、自然言語の理解と生成のための強力な技術として登場した。
本研究は,大規模未ラベルコーパス上で自己エンコーディングと自己回帰言語モデルを共同で事前学習する新しいスキームをPALMに提示する。
広範な実験により、PALMは様々な言語生成ベンチマークにおいて、新しい最先端の結果を達成することが示されている。
論文 参考訳(メタデータ) (2020-04-14T06:25:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。