論文の概要: Active Learning for Identifying Disaster-Related Tweets: A Comparison with Keyword Filtering and Generic Fine-Tuning
- arxiv url: http://arxiv.org/abs/2408.09914v1
- Date: Mon, 19 Aug 2024 11:40:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 16:35:10.999705
- Title: Active Learning for Identifying Disaster-Related Tweets: A Comparison with Keyword Filtering and Generic Fine-Tuning
- Title(参考訳): 災害関連つぶやきを識別するためのアクティブラーニング:キーワードフィルタリングとジェネリックファインチューニングとの比較
- Authors: David Hanny, Sebastian Schmidt, Bernd Resch,
- Abstract要約: 大量の非構造データの中から災害関連ポストを特定することは困難である。
従来の手法では、キーワードフィルタリングやトピックモデリング、分類に基づく手法を使って投稿を識別することが多い。
本研究では,災害関連つぶやきを識別するためのアクティブラーニング(AL)の可能性を検討する。
- 参考スコア(独自算出の注目度): 0.25602836891933073
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Information from social media can provide essential information for emergency response during natural disasters in near real-time. However, it is difficult to identify the disaster-related posts among the large amounts of unstructured data available. Previous methods often use keyword filtering, topic modelling or classification-based techniques to identify such posts. Active Learning (AL) presents a promising sub-field of Machine Learning (ML) that has not been used much in the field of text classification of social media content. This study therefore investigates the potential of AL for identifying disaster-related Tweets. We compare a keyword filtering approach, a RoBERTa model fine-tuned with generic data from CrisisLex, a base RoBERTa model trained with AL and a fine-tuned RoBERTa model trained with AL regarding classification performance. For testing, data from CrisisLex and manually labelled data from the 2021 flood in Germany and the 2023 Chile forest fires were considered. The results show that generic fine-tuning combined with 10 rounds of AL outperformed all other approaches. Consequently, a broadly applicable model for the identification of disaster-related Tweets could be trained with very little labelling effort. The model can be applied to use cases beyond this study and provides a useful tool for further research in social media analysis.
- Abstract(参考訳): ソーシャルメディアからの情報は、ほぼリアルタイムで自然災害時の緊急対応に不可欠な情報を提供することができる。
しかし, 大量の非構造データのうち, 災害関連ポストを特定することは困難である。
従来の手法では、キーワードフィルタリングやトピックモデリング、分類に基づく手法を使って投稿を識別することが多い。
Active Learning (AL)は、ソーシャルメディアコンテンツのテキスト分類の分野ではあまり使われていない機械学習(ML)の有望なサブフィールドを提示する。
そこで本研究では,災害関連つぶやきを識別するALの可能性について検討した。
本稿では,キーワードフィルタリング手法,CrisisLexの汎用データを用いたRoBERTaモデル,ALで訓練したRoBERTaモデル,ALで訓練したRoBERTaモデルを比較した。
テストでは、CrisisLexのデータと、ドイツの2021年の洪水と2023年のチリの森林火災のデータを手動でラベル付けした。
その結果,ALの10ラウンドと組み合わせた汎用微調整は,他のアプローチよりも優れていた。
その結果、災害に関連するつぶやきを識別するための広範囲に適用可能なモデルが、ラベル付けをほとんど行わずに訓練することが可能となった。
このモデルは、この研究以外のユースケースに適用することができ、ソーシャルメディア分析のさらなる研究に役立つツールを提供する。
関連論文リスト
- CrisisSense-LLM: Instruction Fine-Tuned Large Language Model for Multi-label Social Media Text Classification in Disaster Informatics [49.2719253711215]
本研究では,事前学習型大規模言語モデル(LLM)の強化による災害テキスト分類への新たなアプローチを提案する。
本手法では,災害関連ツイートから包括的インストラクションデータセットを作成し,それをオープンソース LLM の微調整に用いる。
この微調整モデルでは,災害関連情報の種類,情報化,人的援助の関与など,複数の側面を同時に分類することができる。
論文 参考訳(メタデータ) (2024-06-16T23:01:10Z) - CrisisMatch: Semi-Supervised Few-Shot Learning for Fine-Grained Disaster
Tweet Classification [51.58605842457186]
半教師付き, 少数ショットの学習環境下で, 微粒な災害ツイート分類モデルを提案する。
私たちのモデルであるCrisisMatchは、ラベルなしデータと大量のラベルなしデータを用いて、ツイートを関心の細かいクラスに効果的に分類する。
論文 参考訳(メタデータ) (2023-10-23T07:01:09Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - Deconstructing Classifiers: Towards A Data Reconstruction Attack Against
Text Classification Models [2.9735729003555345]
我々はMix And Match攻撃と呼ばれる新たなターゲットデータ再構成攻撃を提案する。
この研究は、分類モデルにおけるデータ再構成攻撃に関連するプライバシーリスクを考慮することの重要性を強調している。
論文 参考訳(メタデータ) (2023-06-23T21:25:38Z) - Automated Labeling of German Chest X-Ray Radiology Reports using Deep
Learning [50.591267188664666]
本稿では,ルールベースのドイツ語CheXpertモデルによってラベル付けされたレポートに基づいて,ディープラーニングに基づくCheXpertラベル予測モデルを提案する。
その結果,3つのタスクすべてにおいて,ルールベースモデルを大幅に上回ったアプローチの有効性が示された。
論文 参考訳(メタデータ) (2023-06-09T16:08:35Z) - VuLASTE: Long Sequence Model with Abstract Syntax Tree Embedding for
vulnerability Detection [0.76146285961466]
脆弱性検出を特殊なテキスト分類タスクとみなすVuLASTEというモデルを構築した。
語彙爆発問題を解決するために、VuLASTEは自然言語処理からバイトレベルのBPEアルゴリズムを使用する。
実世界のソースコード上でモデルパフォーマンスをテストするために,クロス言語およびマルチリポジトリの脆弱性データセットを構築した。
論文 参考訳(メタデータ) (2023-02-05T09:17:02Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Enhancing the Generalization for Intent Classification and Out-of-Domain
Detection in SLU [70.44344060176952]
インテント分類は、音声言語理解(SLU)における主要な課題である
近年の研究では、余分なデータやラベルを使用することで、OOD検出性能が向上することが示されている。
本稿では、IND意図分類とOOD検出の両方をサポートしながら、INDデータのみを用いてモデルを訓練することを提案する。
論文 参考訳(メタデータ) (2021-06-28T08:27:38Z) - HumAID: Human-Annotated Disaster Incidents Data from Twitter with Deep
Learning Benchmarks [5.937482215664902]
ソーシャルメディアのコンテンツは、どんなアプリケーションでも直接使うにはうるさい。
効果的な消費と意思決定を促進するために、利用可能なコンテンツをフィルタリング、分類、および簡潔に要約することが重要です。
19の災害イベントで2400万ツイートのプールから抽出された77万ツイートの大規模なデータセットを紹介します。
論文 参考訳(メタデータ) (2021-04-07T12:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。