論文の概要: Utilizing Deep Learning to Identify Drug Use on Twitter Data
- arxiv url: http://arxiv.org/abs/2003.11522v1
- Date: Sun, 8 Mar 2020 07:52:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 14:07:28.548741
- Title: Utilizing Deep Learning to Identify Drug Use on Twitter Data
- Title(参考訳): ディープラーニングを利用したTwitterデータによる薬物使用の識別
- Authors: Joseph Tassone, Peizhi Yan, Mackenzie Simpson, Chetan Mendhe, Vijay
Mago, Salimur Choudhury
- Abstract要約: サポートベクトルマシン(SVM)、XGBoost、畳み込みニューラルネットワーク(CNN)に基づく分類器を含む複数の手法の分類能力を比較した。
精度は76.35%と82.31%で、AUCは0.90と0.91である。
合成されたセットはスコアを増やし、分類能力を改善し、この方法論の価値を証明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The collection and examination of social media has become a useful mechanism
for studying the mental activity and behavior tendencies of users. Through the
analysis of collected Twitter data, models were developed for classifying
drug-related tweets. Using topic pertaining keywords, such as slang and methods
of drug consumption, a set of tweets was generated. Potential candidates were
then preprocessed resulting in a dataset of 3,696,150 rows. The classification
power of multiple methods was compared including support vector machines (SVM),
XGBoost, and convolutional neural network (CNN) based classifiers. Rather than
simple feature or attribute analysis, a deep learning approach was implemented
to screen and analyze the tweets' semantic meaning. The two CNN-based
classifiers presented the best result when compared against other
methodologies. The first was trained with 2,661 manually labeled samples, while
the other included synthetically generated tweets culminating in 12,142
samples. The accuracy scores were 76.35% and 82.31%, with an AUC of 0.90 and
0.91. Additionally, association rule mining showed that commonly mentioned
drugs had a level of correspondence with frequently used illicit substances,
proving the practical usefulness of the system. Lastly, the synthetically
generated set provided increased scores, improving the classification
capability and proving the worth of this methodology.
- Abstract(参考訳): ソーシャルメディアの収集と検証は,ユーザの精神活動や行動傾向を研究する上で有用なメカニズムとなっている。
収集したTwitterデータを分析して、ドラッグ関連ツイートを分類するモデルを開発した。
スラングなどのキーワードや薬物の消費方法に関する話題を使って、一連のツイートが生成された。
候補候補は前処理され、データセットは3,696,150行になった。
サポートベクトルマシン(SVM)、XGBoost、畳み込みニューラルネットワーク(CNN)に基づく分類器を含む複数の手法の分類能力を比較した。
単純な特徴分析や属性解析ではなく、ツイートの意味をスクリーニングし分析するためのディープラーニングアプローチが導入された。
CNNベースの2つの分類器は、他の手法と比較して最も良い結果を示した。
1回目は2,661件のサンプルを手動でラベル付けし、もう1回は12,142件のサンプルを合成生成した。
精度は76.35%と82.31%で、AUCは0.90と0.91である。
さらに、協会のルールマイニングでは、一般的に言及される薬物は頻繁に使用される違法物質と対応し、システムの実用性が証明された。
最後に、合成生成集合はスコアを増加させ、分類能力を改善し、この方法論の価値を証明した。
関連論文リスト
- Detecting the Presence of COVID-19 Vaccination Hesitancy from South
African Twitter Data Using Machine Learning [0.9830751917335564]
ワクチン接種はパンデミックと戦う主要なツールだが、ワクチンのヘシタシーは公衆衛生の努力を危険にさらしている。
そこで本研究では,AIを用いた分類モデルの訓練を目的とした,ワクチンのヘシタシーに関連する南アフリカのツイートに対する感情分析を行った。
論文 参考訳(メタデータ) (2023-07-12T13:28:37Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - Enabling Classifiers to Make Judgements Explicitly Aligned with Human
Values [73.82043713141142]
性差別/人種差別の検出や毒性検出などの多くのNLP分類タスクは、人間の値に基づいている。
本稿では,コマンド内で明示的に記述された人間の値に基づいて予測を行う,値整合型分類のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-14T09:10:49Z) - Multi-channel CNN to classify nepali covid-19 related tweets using
hybrid features [1.713291434132985]
私たちは、ハイブリッド機能と呼ばれる構文情報と意味情報を組み合わせることで、それぞれのツイートを表現します。
我々は、複数のCNNをアンサンブルする新しいマルチチャネル畳み込みニューラルネットワーク(MCNN)を設計する。
提案手法と,NepCOV19Tweetsデータセット上でツイートを分類するMCNNモデルの有効性を評価する。
論文 参考訳(メタデータ) (2022-03-19T09:55:05Z) - A systematic evaluation of methods for cell phenotype classification
using single-cell RNA sequencing data [7.62849213621469]
本研究は、細胞表現型を分類する13の一般的な教師付き機械学習アルゴリズムを評価する。
研究結果から、ElasticNetと対話は、中小のデータセットで最善を尽くしたことが示された。
論文 参考訳(メタデータ) (2021-10-01T23:24:15Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Automatic sleep stage classification with deep residual networks in a
mixed-cohort setting [63.52264764099532]
我々は,大規模コホートの一般化性を評価するために,新しいディープニューラルネットワークモデルを開発した。
総合的な分類精度はトレーニングデータの分数を増やして向上した。
論文 参考訳(メタデータ) (2020-08-21T10:48:35Z) - A Systematic Approach to Featurization for Cancer Drug Sensitivity
Predictions with Deep Learning [49.86828302591469]
35,000以上のニューラルネットワークモデルをトレーニングし、一般的な成果化技術を駆使しています。
RNA-seqは128以上のサブセットであっても非常に冗長で情報的であることがわかった。
論文 参考訳(メタデータ) (2020-04-30T20:42:17Z) - Investigating Classification Techniques with Feature Selection For
Intention Mining From Twitter Feed [0.0]
マイクロブログサービスのTwitterには2億人以上の登録ユーザーがいて、1日に6500万以上の投稿をやりとりしている。
ほとんどのツイートは非公式に書かれ、しばしばスラング語で書かれている。
本稿では,Twitterフィードからユーザの意図を抽出する機能の選択の問題について検討する。
論文 参考訳(メタデータ) (2020-01-22T11:55:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。