論文の概要: Efficacy of BERT embeddings on predicting disaster from Twitter data
- arxiv url: http://arxiv.org/abs/2108.10698v1
- Date: Sun, 8 Aug 2021 17:44:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-29 12:09:42.646645
- Title: Efficacy of BERT embeddings on predicting disaster from Twitter data
- Title(参考訳): Twitterデータからの災害予測におけるBERT埋め込みの有効性
- Authors: Ashis Kumar Chanda
- Abstract要約: 救助機関はソーシャルメディアを監視し、災害を特定し、生命のリスクを減らす。
人間が大量のデータを手動でチェックし、災害をリアルタイムで特定することは不可能である。
先進的な文脈埋め込み法(BERT)は、同じ単語に対する異なるベクトルを異なる文脈で構築する。
BERT埋め込みは、従来の単語埋め込みよりも災害予測タスクにおいて最良の結果をもたらす。
- 参考スコア(独自算出の注目度): 0.548253258922555
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Social media like Twitter provide a common platform to share and communicate
personal experiences with other people. People often post their life
experiences, local news, and events on social media to inform others. Many
rescue agencies monitor this type of data regularly to identify disasters and
reduce the risk of lives. However, it is impossible for humans to manually
check the mass amount of data and identify disasters in real-time. For this
purpose, many research works have been proposed to present words in
machine-understandable representations and apply machine learning methods on
the word representations to identify the sentiment of a text. The previous
research methods provide a single representation or embedding of a word from a
given document. However, the recent advanced contextual embedding method (BERT)
constructs different vectors for the same word in different contexts. BERT
embeddings have been successfully used in different natural language processing
(NLP) tasks, yet there is no concrete analysis of how these representations are
helpful in disaster-type tweet analysis. In this research work, we explore the
efficacy of BERT embeddings on predicting disaster from Twitter data and
compare these to traditional context-free word embedding methods (GloVe,
Skip-gram, and FastText). We use both traditional machine learning methods and
deep learning methods for this purpose. We provide both quantitative and
qualitative results for this study. The results show that the BERT embeddings
have the best results in disaster prediction task than the traditional word
embeddings. Our codes are made freely accessible to the research community.
- Abstract(参考訳): Twitterのようなソーシャルメディアは、他の人と個人的な体験を共有し、コミュニケーションするための共通のプラットフォームを提供する。
人々は自分の生活経験、地元のニュース、出来事をソーシャルメディアに投稿して他人に知らせることが多い。
多くの救助機関は、このタイプのデータを定期的に監視し、災害を特定し、生命のリスクを減らす。
しかし、人間が手動で大量のデータをチェックし、リアルタイムで災害を特定することは不可能である。
この目的のために、機械理解可能な表現に単語を提示し、単語表現に機械学習手法を適用してテキストの感情を識別する研究が数多く提案されている。
従来の研究方法は、ある文書からの単語の単一の表現または埋め込みを提供する。
しかし、最近のadvanced context embedded method (bert)は、異なる文脈で同じ単語の異なるベクトルを構成する。
BERTの埋め込みは、異なる自然言語処理(NLP)タスクでうまく使われてきたが、これらの表現が災害時のつぶやき分析にどのように役立つかは具体的には分析されていない。
本研究では,Twitterデータからの災害予測におけるBERT埋め込みの有効性について検討し,従来の文脈自由な単語埋め込み手法(GloVe,Skip-gram,FastText)と比較する。
この目的では、従来の機械学習手法とディープラーニング手法の両方を使用します。
本研究の定量的および定性的な結果を提供する。
以上の結果から,BERT埋め込みは従来の単語埋め込みよりも災害予測に最適であることが示唆された。
私たちのコードは研究コミュニティに自由にアクセスできます。
関連論文リスト
- Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - ManiTweet: A New Benchmark for Identifying Manipulation of News on Social Media [74.93847489218008]
ソーシャルメディア上でのニュースの操作を識別し,ソーシャルメディア投稿の操作を検出し,操作された情報や挿入された情報を特定することを目的とした,新しいタスクを提案する。
この課題を研究するために,データ収集スキーマを提案し,3.6K対のツイートとそれに対応する記事からなるManiTweetと呼ばれるデータセットをキュレートした。
我々の分析では、このタスクは非常に難しいことを示し、大きな言語モデル(LLM)は不満足なパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2023-05-23T16:40:07Z) - Word Sense Induction with Knowledge Distillation from BERT [6.88247391730482]
本稿では、文脈における単語の感覚に注意を払って、事前学習された言語モデル(BERT)から複数の単語感覚を抽出する手法を提案する。
文脈的単語類似性および感覚誘導タスクの実験は、この手法が最先端のマルチセンス埋め込みよりも優れているか、あるいは競合していることを示している。
論文 参考訳(メタデータ) (2023-04-20T21:05:35Z) - Harnessing the Power of Text-image Contrastive Models for Automatic
Detection of Online Misinformation [50.46219766161111]
誤情報識別の領域における構成的学習を探求する自己学習モデルを構築した。
本モデルでは、トレーニングデータが不十分な場合、非マッチング画像-テキストペア検出の優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-19T02:53:59Z) - Paraphrase Identification with Deep Learning: A Review of Datasets and Methods [1.4325734372991794]
一般的なデータセットにおける特定のパラフレーズ型の表現不足が,盗作を検知する能力にどのように影響するかを検討する。
パラフレーズのための新しいタイポロジーを導入し、検証する。
我々は、AIに基づくパラフレーズ検出を強化するために、将来の研究とデータセット開発のための新しい方向を提案する。
論文 参考訳(メタデータ) (2022-12-13T23:06:20Z) - A Case Study to Reveal if an Area of Interest has a Trend in Ongoing
Tweets Using Word and Sentence Embeddings [0.0]
我々は、デイリー平均類似度スコアが日々のツイートコーパスとターゲット語との類似性を示す、容易に適用可能な自動化手法を提案する。
デイリー平均類似度スコアは主にコサイン類似度と単語/文埋め込みに基づいている。
また,提案手法を適用しながら単語と文の埋め込みの有効性を比較し,ほぼ同じ結果が得られることを認識した。
論文 参考訳(メタデータ) (2021-10-02T18:44:55Z) - TF-IDF vs Word Embeddings for Morbidity Identification in Clinical
Notes: An Initial Study [3.9424051088220518]
臨床記録のテキスト記述において, 深層学習と単語埋め込みを用いて, 16種類の致死型を同定する手法を提案する。
我々は、GloVeとWord2Vecというトレーニング済みのWord Embeddingsと、ターゲットドメインでトレーニングされたWord Embeddingsを採用しました。
論文 参考訳(メタデータ) (2021-05-20T09:57:45Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - MuSeM: Detecting Incongruent News Headlines using Mutual Attentive
Semantic Matching [7.608480381965392]
2つのテキスト間の一致を測定することは、Web上での偽ニュースや誤解を招くニュースの見出しの検出など、いくつかの有用な応用をもたらす。
本稿では,オリジナルと合成した見出しの相互注意に基づくセマンティックマッチング手法を提案する。
提案手法は,2つの公開データセットに対して,先行技術よりも優れていた。
論文 参考訳(メタデータ) (2020-10-07T19:19:42Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。