論文の概要: Investigating Classification Techniques with Feature Selection For
Intention Mining From Twitter Feed
- arxiv url: http://arxiv.org/abs/2001.10380v1
- Date: Wed, 22 Jan 2020 11:55:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-07 17:45:08.889263
- Title: Investigating Classification Techniques with Feature Selection For
Intention Mining From Twitter Feed
- Title(参考訳): Twitterフィードから意図的マイニングのための特徴選択による分類手法の調査
- Authors: Qadri Mishael and Aladdin Ayesh
- Abstract要約: マイクロブログサービスのTwitterには2億人以上の登録ユーザーがいて、1日に6500万以上の投稿をやりとりしている。
ほとんどのツイートは非公式に書かれ、しばしばスラング語で書かれている。
本稿では,Twitterフィードからユーザの意図を抽出する機能の選択の問題について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In the last decade, social networks became most popular medium for
communication and interaction. As an example, micro-blogging service Twitter
has more than 200 million registered users who exchange more than 65 million
posts per day. Users express their thoughts, ideas, and even their intentions
through these tweets. Most of the tweets are written informally and often in
slang language, that contains misspelt and abbreviated words. This paper
investigates the problem of selecting features that affect extracting user's
intention from Twitter feeds based on text mining techniques. It starts by
presenting the method we used to construct our own dataset from extracted
Twitter feeds. Following that, we present two techniques of feature selection
followed by classification. In the first technique, we use Information Gain as
a one-phase feature selection, followed by supervised classification
algorithms. In the second technique, we use a hybrid approach based on forward
feature selection algorithm in which two feature selection techniques employed
followed by classification algorithms. We examine these two techniques with
four classification algorithms. We evaluate them using our own dataset, and we
critically review the results.
- Abstract(参考訳): この10年間で、ソーシャルネットワークはコミュニケーションと対話の最も人気のある媒体となった。
例えば、Twitterには2億人以上の登録ユーザーがいて、1日に6500万以上の投稿をやりとりしている。
ユーザーはこれらのツイートを通じて自分の考えや考え、意図を表現できる。
ほとんどのツイートは非公式に書かれ、しばしばスラング語で書かれ、ミスペルトと短縮語が含まれている。
本稿では,テキストマイニング技術に基づくTwitterフィードからユーザの意図を抽出する機能の選択の問題について検討する。
まず最初に、抽出したtwitterフィードから独自のデータセットを構築するために使用したメソッドを提示します。
その後,特徴選択と分類の2つの手法を提案する。
第1の手法では,情報ゲインを一相特徴選択として,次に教師付き分類アルゴリズムを用いる。
第2の手法では、前方特徴選択アルゴリズムに基づくハイブリッド手法を用いて、2つの特徴選択手法を用いて分類アルゴリズムを用いる。
これら2つの手法を4つの分類アルゴリズムを用いて検討する。
独自のデータセットを用いて評価し、結果を批判的にレビューする。
関連論文リスト
- Context-Based Tweet Engagement Prediction [0.0]
この論文は、ツイートのエンゲージメントの可能性を予測するために、コンテキスト単独がいかにうまく使われるかを調査する。
私たちはTU WienのLittle Big Data ClusterにSparkエンジンを使用して、スケーラブルなデータ前処理、機能エンジニアリング、機能選択、マシンラーニングパイプラインを作成しました。
また, 予測アルゴリズム, トレーニングデータセットサイズ, トレーニングデータセットサンプリング手法, 特徴選択などの因子が, 結果に有意な影響を及ぼすことがわかった。
論文 参考訳(メタデータ) (2023-09-28T08:36:57Z) - ChatGraph: Interpretable Text Classification by Converting ChatGPT
Knowledge to Graphs [54.48467003509595]
ChatGPTは、様々な自然言語処理(NLP)タスクにおいて優れたパフォーマンスを示している。
テキスト分類などの特定のタスクにChatGPTのパワーを利用する新しいフレームワークを提案する。
本手法は,従来のテキスト分類法と比較して,より透過的な意思決定プロセスを提供する。
論文 参考訳(メタデータ) (2023-05-03T19:57:43Z) - Improved Topic modeling in Twitter through Community Pooling [0.0]
Twitterの投稿は短いが、他のテキストよりも一貫性が低いことが多い。
著者が同じコミュニティに属しているツイートをグループ化する,トピックモデリングのための新しいプール方式を提案する。
その結果、我々のコミュニティポーリング手法は、2つの異種データセットの指標の大部分において、他の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-12-20T17:05:32Z) - Identification of Twitter Bots based on an Explainable ML Framework: the
US 2020 Elections Case Study [72.61531092316092]
本稿では,ラベル付きTwitterデータに基づくTwitterボット識別システムの設計に焦点をあてる。
Supervised Machine Learning (ML)フレームワークは、Extreme Gradient Boosting (XGBoost)アルゴリズムを用いて採用されている。
また、MLモデルの予測を説明するためにShapley Additive Explanations (SHAP)をデプロイした。
論文 参考訳(メタデータ) (2021-12-08T14:12:24Z) - Human-in-the-Loop Disinformation Detection: Stance, Sentiment, or
Something Else? [93.91375268580806]
政治とパンデミックは、機械学習対応の偽ニュース検出アルゴリズムの開発に十分な動機を与えている。
既存の文献は、主に完全自動化されたケースに焦点を当てているが、その結果得られた技術は、軍事応用に必要な様々なトピック、ソース、時間スケールに関する偽情報を確実に検出することはできない。
既に利用可能なアナリストを人間のループとして活用することにより、感情分析、アスペクトベースの感情分析、姿勢検出といった標準的な機械学習技術は、部分的に自動化された偽情報検出システムに使用するためのもっとも有効な方法となる。
論文 参考訳(メタデータ) (2021-11-09T13:30:34Z) - A Case Study to Reveal if an Area of Interest has a Trend in Ongoing
Tweets Using Word and Sentence Embeddings [0.0]
我々は、デイリー平均類似度スコアが日々のツイートコーパスとターゲット語との類似性を示す、容易に適用可能な自動化手法を提案する。
デイリー平均類似度スコアは主にコサイン類似度と単語/文埋め込みに基づいている。
また,提案手法を適用しながら単語と文の埋め込みの有効性を比較し,ほぼ同じ結果が得られることを認識した。
論文 参考訳(メタデータ) (2021-10-02T18:44:55Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - DeepStyle: User Style Embedding for Authorship Attribution of Short
Texts [57.503904346336384]
オーサシップアトリビューション(AA)は、多くのアプリケーションで重要で広く研究されている研究トピックです。
近年の研究では、深層学習がAAタスクの精度を大幅に向上させることが示されている。
本稿では,ユーザの健全な書き込みスタイルの表現を学習する新しい埋め込み型フレームワークであるDeepStyleを提案する。
論文 参考訳(メタデータ) (2021-03-14T15:56:37Z) - Towards A Sentiment Analyzer for Low-Resource Languages [0.0]
本研究は,当時盛んに議論されてきた特定のトレンドトピックに対して,ユーザの感情を分析することを目的としている。
2019年のインドネシア大統領選挙で話題になったハッシュタグのtextit#kpujangancurangを使っています。
本研究は,ラピッドマイニングツールを用いて,Twitterデータを生成し,Nieve Bayes,K-Nearest Neighbor,Decision Tree,Multi-Layer Perceptronの分類手法を比較し,Twitterデータの感情を分類する。
論文 参考訳(メタデータ) (2020-11-12T13:50:00Z) - Forensic Authorship Analysis of Microblogging Texts Using N-Grams and
Stylometric Features [63.48764893706088]
この研究は、280文字に制限されたツイートメッセージの作者を特定することを目的としている。
弊社の実験では、40名のユーザによる、ユーザ毎120から200のつぶやきを自己キャプチャしたデータベースを使っています。
この小さなセットを使った結果は有望であり、異なる特徴は92%から98.5%の分類精度を提供する。
論文 参考訳(メタデータ) (2020-03-24T19:32:11Z) - Utilizing Deep Learning to Identify Drug Use on Twitter Data [0.0]
サポートベクトルマシン(SVM)、XGBoost、畳み込みニューラルネットワーク(CNN)に基づく分類器を含む複数の手法の分類能力を比較した。
精度は76.35%と82.31%で、AUCは0.90と0.91である。
合成されたセットはスコアを増やし、分類能力を改善し、この方法論の価値を証明した。
論文 参考訳(メタデータ) (2020-03-08T07:52:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。