論文の概要: Multi-Class and Automated Tweet Categorization
- arxiv url: http://arxiv.org/abs/2112.03005v1
- Date: Sat, 13 Nov 2021 14:28:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-12 15:44:31.756973
- Title: Multi-Class and Automated Tweet Categorization
- Title(参考訳): マルチクラスと自動つぶやき分類
- Authors: Khubaib Ahmed Qureshi
- Abstract要約: この研究は、ツイートのカテゴリーをテキストから検出することを目的としている。
ツイートは、テキストマイニングまたは自然言語処理(NLP)と機械学習(ML)技術を使用して、12の特定カテゴリに分類される。
最高のアンサンブルモデルであるグラディエント・ブースティングはAUCのスコアが85%に達した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Twitter is among the most prevalent social media platform being used by
millions of people all over the world. It is used to express ideas and opinions
about political, social, business, sports, health, religion, and various other
categories. The study reported here aims to detect the tweet category from its
text. It becomes quite challenging when text consists of 140 characters only,
with full of noise. The tweet is categorized under 12 specified categories
using Text Mining or Natural Language Processing (NLP), and Machine Learning
(ML) techniques. It is observed that a huge number of trending topics are
provided by Twitter but it is really challenging to find out that what these
trending topics are all about. Therefore, it is extremely crucial to
automatically categorize the tweets into general categories for plenty of
information extraction tasks. A large dataset is constructed by combining two
different nature of datasets having varying levels of category identification
complexities. It is annotated by experts under proper guidelines for increased
quality and high agreement values. It makes the proposed model quite robust.
Various types of ML algorithms were used to train and evaluate the proposed
model. These models have explored over three datasets separately. It is
explored that the nature of the dataset is highly non-linear therefore complex
or non-linear models perform better. The best ensemble model named, Gradient
Boosting achieved an AUC score of 85\%. That is much better than the other
related studies conducted.
- Abstract(参考訳): twitterは、世界中の何百万人もの人々が使っているソーシャルメディアプラットフォームの中でもっとも普及している。
政治、社会、ビジネス、スポーツ、健康、宗教、その他様々なカテゴリーについての考えや意見を表現するために用いられる。
この研究は、ツイートカテゴリーをテキストから検出することを目的としている。
テキストが140文字のみで構成され、ノイズの多い場合、非常に困難になる。
ツイートは、テキストマイニングまたは自然言語処理(NLP)と機械学習(ML)技術を使用して、12の特定カテゴリに分類される。
多くのトレンドトピックがTwitterによって提供されていることが観察されているが、これらのトレンドトピックが何であるかを知ることは本当に難しい。
したがって、多くの情報抽出タスクにおいて、ツイートを一般的なカテゴリに自動分類することが極めて重要である。
カテゴリ識別の複雑さのレベルが異なるデータセットの2つの異なる性質を組み合わせることで、大きなデータセットを構築する。
品質向上と高い合意値の適切なガイドラインの下で専門家によって注釈されている。
提案モデルは非常に堅牢である。
各種MLアルゴリズムを用いて提案モデルの訓練と評価を行った。
これらのモデルは3つのデータセットを別々に探索してきた。
データセットの性質は非線形であるので、複雑なモデルや非線形モデルの方が優れている。
最も良いアンサンブルモデルであるgradient boostingは85\%のaucスコアを達成した。
それは他の関連する研究よりもずっとよい。
関連論文リスト
- Political Sentiment Analysis of Persian Tweets Using CNN-LSTM Model [0.356008609689971]
ペルシャの政治ツイートの分析感情に機械学習とディープラーニングモデルを提案する。
ParsBERTの埋め込みによるディープラーニングは、機械学習よりも優れている。
論文 参考訳(メタデータ) (2023-07-15T08:08:38Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - Benchmarking Multimodal AutoML for Tabular Data with Text Fields [83.43249184357053]
テキストフィールドを含む18個のマルチモーダルデータテーブルを組み立てる。
このベンチマークにより、研究者は、数値的、分類的、テキスト的特徴を用いて教師あり学習を行うための独自の方法を評価することができる。
論文 参考訳(メタデータ) (2021-11-04T09:29:16Z) - Exploiting BERT For Multimodal Target SentimentClassification Through
Input Space Translation [75.82110684355979]
オブジェクト認識変換器を用いて入力空間内の画像を変換する2ストリームモデルを提案する。
次に、翻訳を利用して、言語モデルに多モーダル情報を提供する補助文を構築する。
2つのマルチモーダルTwitterデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-08-03T18:02:38Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - HumAID: Human-Annotated Disaster Incidents Data from Twitter with Deep
Learning Benchmarks [5.937482215664902]
ソーシャルメディアのコンテンツは、どんなアプリケーションでも直接使うにはうるさい。
効果的な消費と意思決定を促進するために、利用可能なコンテンツをフィルタリング、分類、および簡潔に要約することが重要です。
19の災害イベントで2400万ツイートのプールから抽出された77万ツイートの大規模なデータセットを紹介します。
論文 参考訳(メタデータ) (2021-04-07T12:29:36Z) - Diverse Complexity Measures for Dataset Curation in Self-driving [80.55417232642124]
トラフィックシーンの面白さを定量化する多様な基準を活用した新たなデータ選択手法を提案する。
実験の結果,提案するキュレーションパイプラインは,より汎用的で高いパフォーマンスをもたらすデータセットを選択できることが判明した。
論文 参考訳(メタデータ) (2021-01-16T23:45:02Z) - TIMME: Twitter Ideology-detection via Multi-task Multi-relational
Embedding [26.074367752142198]
我々は、人々のイデオロギーや政治的傾向を予測する問題を解決することを目的としている。
我々は、Twitterデータを用いてそれを推定し、分類問題として定式化する。
論文 参考訳(メタデータ) (2020-06-02T00:00:39Z) - Stance in Replies and Quotes (SRQ): A New Dataset For Learning Stance in
Twitter Conversations [8.097870074875729]
我々は5200以上のスタンスラベルを持つTwitter会話のための人間ラベル付きスタンスデータセットを提示する。
会話の姿勢を学習し、様々なモデルのパフォーマンスを比較するためのベースラインモデルが多数含まれています。
論文 参考訳(メタデータ) (2020-06-01T03:30:08Z) - The World is Not Binary: Learning to Rank with Grayscale Data for
Dialogue Response Selection [55.390442067381755]
人間の努力なしに、グレースケールのデータを自動的に構築できることが示される。
本手法では,自動グレースケールデータ生成装置として,市販の応答検索モデルと応答生成モデルを用いる。
3つのベンチマークデータセットと4つの最先端マッチングモデルの実験は、提案手法が大幅に、一貫したパフォーマンス改善をもたらすことを示している。
論文 参考訳(メタデータ) (2020-04-06T06:34:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。