論文の概要: Sentiment analysis in tweets: an assessment study from classical to
modern text representation models
- arxiv url: http://arxiv.org/abs/2105.14373v1
- Date: Sat, 29 May 2021 21:05:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-03 13:33:36.451628
- Title: Sentiment analysis in tweets: an assessment study from classical to
modern text representation models
- Title(参考訳): ツイートにおける感情分析:古典的テキスト表現モデルから現代的テキスト表現モデルへ
- Authors: S\'ergio Barreto, Ricardo Moura, Jonnathan Carvalho, Aline Paes,
Alexandre Plastino
- Abstract要約: Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
- 参考スコア(独自算出の注目度): 59.107260266206445
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: With the growth of social medias, such as Twitter, plenty of user-generated
data emerge daily. The short texts published on Twitter -- the tweets -- have
earned significant attention as a rich source of information to guide many
decision-making processes. However, their inherent characteristics, such as the
informal, and noisy linguistic style, remain challenging to many natural
language processing (NLP) tasks, including sentiment analysis. Sentiment
classification is tackled mainly by machine learning-based classifiers. The
literature has adopted word representations from distinct natures to transform
tweets to vector-based inputs to feed sentiment classifiers. The
representations come from simple count-based methods, such as bag-of-words, to
more sophisticated ones, such as BERTweet, built upon the trendy BERT
architecture. Nevertheless, most studies mainly focus on evaluating those
models using only a small number of datasets. Despite the progress made in
recent years in language modelling, there is still a gap regarding a robust
evaluation of induced embeddings applied to sentiment analysis on tweets.
Furthermore, while fine-tuning the model from downstream tasks is prominent
nowadays, less attention has been given to adjustments based on the specific
linguistic style of the data. In this context, this study fulfils an assessment
of existing language models in distinguishing the sentiment expressed in tweets
by using a rich collection of 22 datasets from distinct domains and five
classification algorithms. The evaluation includes static and contextualized
representations. Contexts are assembled from Transformer-based autoencoder
models that are also fine-tuned based on the masked language model task, using
a plethora of strategies.
- Abstract(参考訳): Twitterなどのソーシャルメディアの成長に伴い、毎日多くのユーザー生成データが生まれている。
ツイッター上で公開された短いテキスト(ツイート)は、多くの意思決定プロセスのガイドとなる豊富な情報源として注目されている。
しかし, 感情分析を含む多くの自然言語処理(NLP)タスクにおいて, 形式的, 騒々しい言語スタイルなどの固有の特徴は依然として困難である。
知覚分類は主に機械学習に基づく分類器によって取り組まれている。
この文献では、ツイートをベクトルベースの入力に変換し、感情分類器をフィードする。
表現は、bag-of-wordsのような単純なカウントベースのメソッドから、trendy bertアーキテクチャ上に構築されたbertweetのようなより洗練されたメソッドへと導かれる。
しかしながら、ほとんどの研究は、少数のデータセットのみを使用してこれらのモデルを評価することに重点を置いている。
近年の言語モデリングの進歩にもかかわらず、ツイートの感情分析に適用されるインジェクション埋め込みの堅牢な評価には依然としてギャップがある。
さらに,近年,下流タスクからモデルを微調整する手法が注目されているが,データ固有の言語的スタイルに基づく調整にはあまり注意が向けられていない。
この文脈では、異なるドメインの22のデータセットと5つの分類アルゴリズムの豊富なコレクションを用いて、ツイートで表現された感情を区別する既存の言語モデルの評価を行う。
評価には静的表現とコンテキスト化表現が含まれる。
コンテキストはトランスフォーマーベースのオートエンコーダモデルから組み立てられ、多数の戦略を使用して、マスクされた言語モデルタスクに基づいて微調整される。
関連論文リスト
- CAST: Corpus-Aware Self-similarity Enhanced Topic modelling [16.562349140796115]
CAST: Corpus-Aware Self-similarity Enhanced Topic modelling, a novel topic modelling methodを紹介する。
機能的単語が候補話題語として振る舞うのを防ぐための効果的な指標として自己相似性を見出した。
提案手法は,生成したトピックの一貫性と多様性,およびノイズの多いデータを扱うトピックモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-19T15:27:11Z) - Assessing In-context Learning and Fine-tuning for Topic Classification of German Web Data [3.2771631221674333]
トピック関連コンテンツの検出をバイナリ分類タスクとしてモデル化する。
トピックごとの注釈付きデータポイントはわずか数百で、ドイツの3つのポリシーに関連するコンテンツを検出する。
論文 参考訳(メタデータ) (2024-07-23T14:31:59Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - TweetEval: Unified Benchmark and Comparative Evaluation for Tweet
Classification [22.265865542786084]
異種Twitter固有の7つの分類タスクからなる新しい評価フレームワーク(TweetEval)を提案する。
最初の実験では、既存の訓練済みの汎用言語モデルから始めることの有効性を示した。
論文 参考訳(メタデータ) (2020-10-23T14:11:04Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z) - Adapting Deep Learning for Sentiment Classification of Code-Switched
Informal Short Text [1.6752182911522517]
コードスイッチによる非公式テキストの感情分類のために,MultiSentiというラベル付きデータセットを提案する。
コードスイッチトされた非公式短文の感情分類のための深層学習に基づくモデルを提案する。
論文 参考訳(メタデータ) (2020-01-04T06:31:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。