論文の概要: Short text classification with machine learning in the social sciences:
The case of climate change on Twitter
- arxiv url: http://arxiv.org/abs/2310.04452v1
- Date: Tue, 3 Oct 2023 22:09:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-15 14:37:54.054267
- Title: Short text classification with machine learning in the social sciences:
The case of climate change on Twitter
- Title(参考訳): 社会科学における機械学習を用いた短文分類 : Twitterにおける気候変動の事例
- Authors: Karina Shyrokykh, Maksym Girnyk, Lisa Dellmuth
- Abstract要約: 教師あり機械学習手法は最先端のレキシコンよりも優れていることを示す。
ロジスティック回帰やランダムフォレストのような伝統的な機械学習手法は、洗練されたディープラーニング手法と同様に機能する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To analyse large numbers of texts, social science researchers are
increasingly confronting the challenge of text classification. When manual
labeling is not possible and researchers have to find automatized ways to
classify texts, computer science provides a useful toolbox of machine-learning
methods whose performance remains understudied in the social sciences. In this
article, we compare the performance of the most widely used text classifiers by
applying them to a typical research scenario in social science research: a
relatively small labeled dataset with infrequent occurrence of categories of
interest, which is a part of a large unlabeled dataset. As an example case, we
look at Twitter communication regarding climate change, a topic of increasing
scholarly interest in interdisciplinary social science research. Using a novel
dataset including 5,750 tweets from various international organizations
regarding the highly ambiguous concept of climate change, we evaluate the
performance of methods in automatically classifying tweets based on whether
they are about climate change or not. In this context, we highlight two main
findings. First, supervised machine-learning methods perform better than
state-of-the-art lexicons, in particular as class balance increases. Second,
traditional machine-learning methods, such as logistic regression and random
forest, perform similarly to sophisticated deep-learning methods, whilst
requiring much less training time and computational resources. The results have
important implications for the analysis of short texts in social science
research.
- Abstract(参考訳): 大量のテキストを分析するために、社会科学研究者はテキスト分類の課題に直面している。
手動ラベリングが不可能で、研究者がテキストを分類する自動化された方法を見つける必要があるとき、コンピュータサイエンスは、社会科学で研究されていないパフォーマンスを持つ機械学習手法の有用なツールボックスを提供する。
本稿では、最も広く使われているテキスト分類器の性能を、社会科学研究における典型的な研究シナリオに適用することで比較する。
例えば、気候変動に関するTwitterのコミュニケーションは、学際的な社会科学研究への学術的関心を高めている。
気候変動の高度にあいまいな概念に関する様々な国際機関からの5750のツイートを含む新しいデータセットを用いて、気候変動に関するか否かに基づいて自動的にツイートを分類する手法の性能を評価する。
この文脈では、主な2つの発見を強調します。
まず、教師付き機械学習手法は最先端のレキシコンよりも優れた性能を発揮する。
第2に、ロジスティック回帰やランダムフォレストといった従来の機械学習手法は、トレーニング時間と計算リソースをはるかに削減しながら、高度なディープラーニング手法と同様に実行する。
この結果は社会科学研究における短文の分析に重要な意味を持つ。
関連論文リスト
- Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - Improved Topic modeling in Twitter through Community Pooling [0.0]
Twitterの投稿は短いが、他のテキストよりも一貫性が低いことが多い。
著者が同じコミュニティに属しているツイートをグループ化する,トピックモデリングのための新しいプール方式を提案する。
その結果、我々のコミュニティポーリング手法は、2つの異種データセットの指標の大部分において、他の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-12-20T17:05:32Z) - Small data problems in political research: a critical replication study [5.698280399449707]
このデータから, ランダムな列車-テスト分割のばらつきに対して, 分類モデルに非常に敏感な結果が得られた。
また、適用された前処理により、データが極めてスパースであることも示している。
以上の結果から,組織評価ツイートの自動分類に関するA&Wの結論は維持できないと論じる。
論文 参考訳(メタデータ) (2021-09-27T09:55:58Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Semantic Analysis for Automated Evaluation of the Potential Impact of
Research Articles [62.997667081978825]
本稿では,情報理論に基づくテキスト意味のベクトル表現のための新しい手法を提案する。
この情報意味論がLeicester Scientific Corpusに基づいてテキスト分類にどのように使用されるかを示す。
テキストの意味を表現するための情報的アプローチは,研究論文の科学的影響を効果的に予測する方法であることを示す。
論文 参考訳(メタデータ) (2021-04-26T20:37:13Z) - My Teacher Thinks The World Is Flat! Interpreting Automatic Essay
Scoring Mechanism [71.34160809068996]
最近の研究では、自動スコアリングシステムが常識的な敵対的サンプルになりやすいことが示されています。
近年の解釈能力の進歩を活かし,コヒーレンスやコンテント,関連性といった特徴がスコアリングの自動化にどの程度重要であるかを見出す。
また、モデルが意味的に世界知識や常識に基づかないことから、世界のような虚偽の事実を追加することは、それを減らすよりもむしろスコアを増加させる。
論文 参考訳(メタデータ) (2020-12-27T06:19:20Z) - ClimaText: A Dataset for Climate Change Topic Detection [2.9767565026354186]
文に基づく気候変動トピック検出のためのデータセットであるtextscClimaTextを紹介した。
一般的なキーワードベースのモデルは、そのような複雑で進化するタスクには不十分であることがわかった。
我々の分析は、いくつかの面で改善する大きな可能性を明らかにしている。
論文 参考訳(メタデータ) (2020-12-01T13:42:37Z) - Text Mining for Processing Interview Data in Computational Social
Science [0.6820436130599382]
我々は、市販のテキスト分析技術を用いて、計算社会科学研究からのインタビューテキストデータを処理する。
局所的クラスタリングと用語的エンリッチメントが,応答の探索と定量化に有用であることがわかった。
我々は社会科学の研究にテキスト分析を使うことを奨励し、特に探索的オープンエンドな研究に力を入れている。
論文 参考訳(メタデータ) (2020-11-28T00:44:35Z) - Be More with Less: Hypergraph Attention Networks for Inductive Text
Classification [56.98218530073927]
グラフニューラルネットワーク(GNN)は、研究コミュニティで注目され、この標準タスクで有望な結果を実証している。
成功にもかかわらず、それらのパフォーマンスは、単語間の高次相互作用をキャプチャできないため、実際は大部分が危険に晒される可能性がある。
本稿では,テキスト表現学習において,少ない計算量でより表現力の高いハイパーグラフアテンションネットワーク(HyperGAT)を提案する。
論文 参考訳(メタデータ) (2020-11-01T00:21:59Z) - Scaling Systematic Literature Reviews with Machine Learning Pipelines [57.82662094602138]
体系的なレビューは、科学的文書からデータを抽出する。
これらの側面をそれぞれ自動化するパイプラインを構築し、多くの人間時間対システム品質トレードオフを実験します。
人間の専門的アノテーションの2週間だけで、パイプラインシステム全体の驚くほどの精度と一般性が得られることが分かりました。
論文 参考訳(メタデータ) (2020-10-09T16:19:42Z) - Machine Identification of High Impact Research through Text and Image
Analysis [0.4737991126491218]
本稿では,引用の可能性が低い論文から高い論文を自動的に分離するシステムを提案する。
本システムでは,文書全体の外観を推測する視覚的分類器と,コンテンツインフォームド決定のためのテキスト分類器の両方を用いる。
論文 参考訳(メタデータ) (2020-05-20T19:12:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。