論文の概要: Cross-Lingual and Cross-Domain Crisis Classification for Low-Resource
Scenarios
- arxiv url: http://arxiv.org/abs/2209.02139v1
- Date: Mon, 5 Sep 2022 20:57:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 13:37:45.768027
- Title: Cross-Lingual and Cross-Domain Crisis Classification for Low-Resource
Scenarios
- Title(参考訳): 低資源シナリオにおける言語横断とドメイン横断の危機分類
- Authors: Cinthia S\'anchez, Hernan Sarmiento, Jorge P\'erez, Andres Abeliuk,
Barbara Poblete
- Abstract要約: 本稿では,言語間およびドメイン間ラベル付きデータを活用することで,危機事象に関連するメッセージを自動的に分類するタスクについて検討する。
私たちのゴールは、高リソース言語のラベル付きデータを使用して、他の(低リソースの)言語や、新しい(以前は見えなかった)危機状況からのメッセージを分類することです。
我々の経験的発見は、英語の危機イベントのデータを利用して、スペイン語やイタリア語など他の言語で同じ種類の出来事を分類することが可能であることを示している。
- 参考スコア(独自算出の注目度): 4.147346416230273
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Social media data has emerged as a useful source of timely information about
real-world crisis events. One of the main tasks related to the use of social
media for disaster management is the automatic identification of crisis-related
messages. Most of the studies on this topic have focused on the analysis of
data for a particular type of event in a specific language. This limits the
possibility of generalizing existing approaches because models cannot be
directly applied to new types of events or other languages. In this work, we
study the task of automatically classifying messages that are related to crisis
events by leveraging cross-language and cross-domain labeled data. Our goal is
to make use of labeled data from high-resource languages to classify messages
from other (low-resource) languages and/or of new (previously unseen) types of
crisis situations. For our study we consolidated from the literature a large
unified dataset containing multiple crisis events and languages. Our empirical
findings show that it is indeed possible to leverage data from crisis events in
English to classify the same type of event in other languages, such as Spanish
and Italian (80.0% F1-score). Furthermore, we achieve good performance for the
cross-domain task (80.0% F1-score) in a cross-lingual setting. Overall, our
work contributes to improving the data scarcity problem that is so important
for multilingual crisis classification. In particular, mitigating cold-start
situations in emergency events, when time is of essence.
- Abstract(参考訳): ソーシャルメディアのデータは、現実世界の危機イベントに関するタイムリーな情報ソースとして登場した。
災害管理におけるソーシャルメディアの利用に関する主なタスクの1つは、危機関連メッセージの自動識別である。
このトピックに関するほとんどの研究は、特定の言語における特定のタイプのイベントのデータ分析に焦点を当てています。
これは、モデルが新しいタイプのイベントや他の言語に直接適用できないため、既存のアプローチを一般化する可能性を制限する。
本研究では,言語間およびドメイン間ラベル付きデータを活用し,危機事象に関連するメッセージを自動分類するタスクについて検討する。
私たちのゴールは、高リソース言語のラベル付きデータを使用して、他の(低リソースの)言語や、新しい(以前は見えなかった)危機状況からのメッセージを分類することです。
本研究では,複数の危機事象と言語を含む大規模統一データセットを文献から統合した。
我々の経験的発見は、英語の危機イベントのデータを利用して、スペイン語やイタリア語(80.0% F1スコア)など他の言語で同じ種類の出来事を分類することが可能であることを示している。
さらに,ドメイン間タスク(80.0%F1スコア)を言語間設定で高い性能を達成する。
全体として,本研究は,多言語危機分類において非常に重要なデータ不足問題の改善に寄与する。
特に、時間の本質である緊急時におけるコールドスタートの緩和。
関連論文リスト
- CrisisSense-LLM: Instruction Fine-Tuned Large Language Model for Multi-label Social Media Text Classification in Disaster Informatics [49.2719253711215]
本研究では,事前学習型大規模言語モデル(LLM)の強化による災害テキスト分類への新たなアプローチを提案する。
本手法では,災害関連ツイートから包括的インストラクションデータセットを作成し,それをオープンソース LLM の微調整に用いる。
この微調整モデルでは,災害関連情報の種類,情報化,人的援助の関与など,複数の側面を同時に分類することができる。
論文 参考訳(メタデータ) (2024-06-16T23:01:10Z) - CReMa: Crisis Response through Computational Identification and Matching of Cross-Lingual Requests and Offers Shared on Social Media [5.384787836425144]
危機の時代には、ソーシャルメディアプラットフォームはコミュニケーションの促進と資源の調整において重要な役割を担っている。
本稿では,CReMa(Crisis Response Matcher)を提案する。
16言語でヘルプ検索をシミュレートし,ソーシャルメディアに支援を提供する新しい多言語データセットを提案する。
論文 参考訳(メタデータ) (2024-05-20T09:30:03Z) - CrisisMatch: Semi-Supervised Few-Shot Learning for Fine-Grained Disaster
Tweet Classification [51.58605842457186]
半教師付き, 少数ショットの学習環境下で, 微粒な災害ツイート分類モデルを提案する。
私たちのモデルであるCrisisMatchは、ラベルなしデータと大量のラベルなしデータを用いて、ツイートを関心の細かいクラスに効果的に分類する。
論文 参考訳(メタデータ) (2023-10-23T07:01:09Z) - Coping with low data availability for social media crisis message
categorisation [3.0255457622022495]
この論文は、緊急対応のための危機メッセージの分類において、データ可用性の低い課題に対処することに焦点を当てている。
これはまず、過去の危機イベントから注釈付きデータから分類モデルを学ぶことを含む、この問題の解決策としてドメイン適応を提示する。
モデルが過去の複数のイベントに対してトレーニングされ、進行中の複数のイベントに適応する多対多適応では、マルチタスク学習アプローチが提案される。
論文 参考訳(メタデータ) (2023-05-26T19:08:24Z) - Enhancing Crisis-Related Tweet Classification with Entity-Masked
Language Modeling and Multi-Task Learning [0.30458514384586394]
本稿では,マルチタスク学習問題として,エンティティ・マスク言語モデリングと階層型マルチラベル分類の組み合わせを提案する。
我々は,TREC-ISデータセットからのつぶやきに対する評価を行い,動作可能な情報型に対して最大10%のF1スコアの絶対的なパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-11-21T13:54:10Z) - CrisisLTLSum: A Benchmark for Local Crisis Event Timeline Extraction and
Summarization [62.77066949111921]
本稿では,現在までに利用可能な地域危機イベントタイムラインの最大のデータセットであるCrisisLTLSumについて述べる。
CrisisLTLSumには、山火事、地元の火災、交通、嵐の4つの領域にわたる1000の危機イベントタイムラインが含まれている。
最初の実験では, 両タスクの人的性能と比較して, 強いベースライン性能の間に有意な差があることが示唆された。
論文 参考訳(メタデータ) (2022-10-25T17:32:40Z) - CONCRETE: Improving Cross-lingual Fact-checking with Cross-lingual
Retrieval [73.48591773882052]
ほとんどのファクトチェックアプローチは、他の言語におけるデータ不足の問題にのみ英語に焦点を当てている。
クロスリンガル検索を付加した最初のファクトチェックフレームワークを提案する。
提案したクロスリンガル逆クローズタスク(XICT)を用いてレトリバーを訓練する。
論文 参考訳(メタデータ) (2022-09-05T17:36:14Z) - Combating Temporal Drift in Crisis with Adapted Embeddings [58.4558720264897]
言語の使用は時間とともに変化し、NLPシステムの有効性に影響を与える可能性がある。
本研究は,危機時の言論変化に対応する方法を検討する。
論文 参考訳(メタデータ) (2021-04-17T13:11:41Z) - Event-Related Bias Removal for Real-time Disaster Events [67.2965372987723]
ソーシャルメディアは、自然災害や大量攻撃などの危機事象に関する情報を共有する重要なツールとなっている。
有用な情報を含む実行可能なポストを検出するには、大量のデータをリアルタイムに高速に分析する必要がある。
我々は、潜在事象固有のバイアスを除去し、ツイート重要度分類の性能を向上させるために、敵対的ニューラルモデルを訓練する。
論文 参考訳(メタデータ) (2020-11-02T02:03:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。