論文の概要: Effect of Text Processing Steps on Twitter Sentiment Classification
using Word Embedding
- arxiv url: http://arxiv.org/abs/2007.13027v1
- Date: Sat, 25 Jul 2020 22:44:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 00:53:09.438294
- Title: Effect of Text Processing Steps on Twitter Sentiment Classification
using Word Embedding
- Title(参考訳): 単語埋め込みを用いたtwitter感情分類におけるテキスト処理ステップの影響
- Authors: Manar D. Samad, Nalin D. Khounviengxay, Megan A. Witherow
- Abstract要約: 本稿では,7つのテキスト処理シナリオが特定のテキストドメイン(Twitter)とアプリケーション(感性分類)に与える影響について検討する。
スキップグラムベースの単語埋め込みは、従来の文献コーパスでは利用できないためにしばしば削除されるTwitterの口語、絵文字、ハッシュタグキーワードを含むように開発されている。
1)非ASCII絵文字文字,2)単語埋め込みから単語の重要度を測定すること,3)ツイート埋め込みに単語ベクトルを集約すること,4)感情分類パイプラインを最適化するために線形分離可能な特徴空間を開発することなどが提案されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Processing of raw text is the crucial first step in text classification and
sentiment analysis. However, text processing steps are often performed using
off-the-shelf routines and pre-built word dictionaries without optimizing for
domain, application, and context. This paper investigates the effect of seven
text processing scenarios on a particular text domain (Twitter) and application
(sentiment classification). Skip gram-based word embeddings are developed to
include Twitter colloquial words, emojis, and hashtag keywords that are often
removed for being unavailable in conventional literature corpora. Our
experiments reveal negative effects on sentiment classification of two common
text processing steps: 1) stop word removal and 2) averaging of word vectors to
represent individual tweets. New effective steps for 1) including non-ASCII
emoji characters, 2) measuring word importance from word embedding, 3)
aggregating word vectors into a tweet embedding, and 4) developing linearly
separable feature space have been proposed to optimize the sentiment
classification pipeline. The best combination of text processing steps yields
the highest average area under the curve (AUC) of 88.4 (+/-0.4) in classifying
14,640 tweets with three sentiment labels. Word selection from context-driven
word embedding reveals that only the ten most important words in Tweets
cumulatively yield over 98% of the maximum accuracy. Results demonstrate a
means for data-driven selection of important words in tweet classification as
opposed to using pre-built word dictionaries. The proposed tweet embedding is
robust to and alleviates the need for several text processing steps.
- Abstract(参考訳): 原文の処理はテキスト分類と感情分析において重要な第一歩である。
しかし、テキスト処理のステップは、ドメイン、アプリケーション、コンテキストを最適化することなく、オフザシェルフルーチンとプレビルドワード辞書を使用して実行されることが多い。
本稿では,特定のテキストドメイン (twitter) とアプリケーション (sentiment classification) に対する7つのテキスト処理シナリオの効果について検討する。
スキップグラムベースの単語埋め込みは、従来の文献コーパスでは利用できないためにしばしば削除されるTwitterの口語、絵文字、ハッシュタグキーワードを含むように開発されている。
我々の実験は2つの一般的なテキスト処理ステップの感情分類に負の効果を示す。
1) 単語の削除と停止
2)個々のツイートを表す単語ベクトルの平均化。
新しい効果的なステップ
1)非ASCII絵文字文字を含む。
2)単語埋め込みによる単語重要度の測定
3)単語ベクトルをツイート埋め込みに集約する、
4) 感情分類パイプラインを最適化するために線形分離可能な特徴空間の開発が提案されている。
テキスト処理の最良の組み合わせは、3つの感情ラベルを持つ14,640ツイートの分類において、曲線(AUC)の88.4(+/-0.4)の最高平均領域を得る。
コンテキスト駆動の単語埋め込みからの単語選択は、ツイートの中で最も重要な単語が最大精度の98%以上を占めることを明らかにする。
その結果,既成語辞書ではなく,ツイート分類において重要な単語をデータ駆動で選択する手法が示された。
提案するツイート埋め込みは堅牢であり、いくつかのテキスト処理ステップの必要性を緩和する。
関連論文リスト
- An Evaluation of Sindhi Word Embedding in Semantic Analogies and Downstream Tasks [2.3624125155742064]
我々は,複数のWebリソースから6100万以上の単語をクロールする新しい単語埋め込み型コーパスを提案する。
クロールデータから不要なテキストをフィルタリングするための前処理パイプラインを設計する。
クリーニングされた語彙は、最先端の連続バグ・オブ・ワード、スキップグラム、GloVeワード埋め込みアルゴリズムに供給される。
論文 参考訳(メタデータ) (2024-08-28T11:36:29Z) - Copy Is All You Need [66.00852205068327]
既存のテキストコレクションからテキストセグメントを段階的にコピーするテキスト生成を定式化する。
提案手法は, 自動評価と人的評価の両方により, より優れた生成品質を実現する。
当社のアプローチでは,より大規模なテキストコレクションにスケールアップすることで,さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-07-13T05:03:26Z) - Integrating Bidirectional Long Short-Term Memory with Subword Embedding
for Authorship Attribution [2.3429306644730854]
マニフォールド語に基づくスタイリスティックマーカーは、著者帰属の本質的な問題に対処するために、ディープラーニング手法でうまく使われてきた。
提案手法は,CCAT50,IMDb62,Blog50,Twitter50の公営企業における最先端手法に対して実験的に評価された。
論文 参考訳(メタデータ) (2023-06-26T11:35:47Z) - Searching for Discriminative Words in Multidimensional Continuous
Feature Space [0.0]
文書から識別キーワードを抽出する新しい手法を提案する。
異なる差別的指標が全体的な結果にどのように影響するかを示す。
単語特徴ベクトルは文書の意味のトピック的推論を大幅に改善することができると結論付けている。
論文 参考訳(メタデータ) (2022-11-26T18:05:11Z) - Simple, Interpretable and Stable Method for Detecting Words with Usage
Change across Corpora [54.757845511368814]
2つの文体を比較し、その用法が異なる単語を探すという問題は、しばしばデジタル人文科学や計算社会科学において生じる。
これは一般に、各コーパスに単語の埋め込みを訓練し、ベクトル空間を整列させ、整列空間における余弦距離が大きい単語を探すことでアプローチされる。
本稿では,ベクトル空間アライメントを使わず,各単語の近傍を考慮した代替手法を提案する。
論文 参考訳(メタデータ) (2021-12-28T23:46:00Z) - Weakly-supervised Text Classification Based on Keyword Graph [30.57722085686241]
GNN によるキーワードグラフ上のキーワードキーワード相関を探索する ClassKG という新しいフレームワークを提案する。
フレームワークは反復的なプロセスであり、各イテレーションでまずキーワードグラフを構築し、擬似ラベルをアサインするタスクをキーワードサブグラフに変換する。
サブグラフアノテータによって生成された擬似ラベルを用いて、未ラベルのテキストを分類するためにテキスト分類器を訓練する。
論文 参考訳(メタデータ) (2021-10-06T08:58:02Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - UCPhrase: Unsupervised Context-aware Quality Phrase Tagging [63.86606855524567]
UCPhraseは、教師なしの文脈対応のフレーズタグである。
我々は,一貫した単語列から,高品質なフレーズを銀のラベルとして表現する。
我々の設計は、最先端の事前訓練、教師なし、遠隔管理の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-05-28T19:44:24Z) - Match-Ignition: Plugging PageRank into Transformer for Long-form Text
Matching [66.71886789848472]
実効性と効率性に対処する新しい階層型ノイズフィルタリングモデルであるMatch-Ignitionを提案する。
基本的なアイデアは、よく知られたPageRankアルゴリズムをTransformerに接続し、文と単語レベルの騒々しい情報を識別およびフィルタリングすることです。
文が長文の基本単位であるため、ノイズの多い文はたいてい簡単に検出できるので、PageRankを直接使用してそのような情報をフィルタリングする。
論文 参考訳(メタデータ) (2021-01-16T10:34:03Z) - Accelerating Text Mining Using Domain-Specific Stop Word Lists [57.76576681191192]
本稿では,超平面的アプローチと呼ばれるドメイン固有語の自動抽出手法を提案する。
ハイパープレーンベースのアプローチは、無関係な特徴を排除することによって、テキストの寸法を著しく削減することができる。
その結果,超平面型アプローチはコーパスの寸法を90%削減し,相互情報より優れることがわかった。
論文 参考訳(メタデータ) (2020-11-18T17:42:32Z) - Text classification with word embedding regularization and soft
similarity measure [0.20999222360659603]
2つの単語埋め込み正規化技術は、ストレージとメモリコストを削減し、トレーニング速度、文書処理速度、タスクパフォーマンスを改善する。
正規化単語埋め込みによる平均$k$NNテスト誤差の39%を非正規化単語埋め込みと比較した。
また,正規化単語埋め込みを用いたSCMはテキスト分類においてWMDを著しく上回り,1万倍以上高速であることを示す。
論文 参考訳(メタデータ) (2020-03-10T22:07:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。