論文の概要: A Case Study of Spanish Text Transformations for Twitter Sentiment
Analysis
- arxiv url: http://arxiv.org/abs/2106.02009v1
- Date: Thu, 3 Jun 2021 17:24:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-04 16:13:26.604344
- Title: A Case Study of Spanish Text Transformations for Twitter Sentiment
Analysis
- Title(参考訳): twitter感情分析のためのスペイン語テキスト変換の事例研究
- Authors: Eric S. Tellez, Sabino Miranda-Jim\'enez, Mario Graff, Daniela
Moctezuma, Oscar S. Siodia, and Elio A. Villase\~nor
- Abstract要約: 感性分析は、与えられたテキストの極性、すなわちその正性または負性を決定するテキストマイニングタスクである。
テキスト表現の新しい形式は、スラング、正書法、文法的誤りを用いてテキストを分析するための新しい課題を示す。
- 参考スコア(独自算出の注目度): 1.9694608733361543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sentiment analysis is a text mining task that determines the polarity of a
given text, i.e., its positiveness or negativeness. Recently, it has received a
lot of attention given the interest in opinion mining in micro-blogging
platforms. These new forms of textual expressions present new challenges to
analyze text given the use of slang, orthographic and grammatical errors, among
others. Along with these challenges, a practical sentiment classifier should be
able to handle efficiently large workloads.
The aim of this research is to identify which text transformations
(lemmatization, stemming, entity removal, among others), tokenizers (e.g.,
words $n$-grams), and tokens weighting schemes impact the most the accuracy of
a classifier (Support Vector Machine) trained on two Spanish corpus. The
methodology used is to exhaustively analyze all the combinations of the text
transformations and their respective parameters to find out which
characteristics the best performing classifiers have in common. Furthermore,
among the different text transformations studied, we introduce a novel approach
based on the combination of word based $n$-grams and character based $q$-grams.
The results show that this novel combination of words and characters produces a
classifier that outperforms the traditional word based combination by $11.17\%$
and $5.62\%$ on the INEGI and TASS'15 dataset, respectively.
- Abstract(参考訳): 感性分析は、与えられたテキストの極性、すなわちその正性または負性を決定するテキストマイニングタスクである。
近年、マイクロブログプラットフォームにおける意見マイニングへの関心から、多くの注目を集めている。
これらの新しい形態のテキスト表現は、スラング、正書法、文法的誤りなどを用いてテキストを解析する新たな課題を示す。
これらの課題に加えて、実用的な感情分類器は、効率的な大規模ワークロードを扱えるべきである。
本研究の目的は、どのテキスト変換(文法化、ステーミング、エンティティ除去など)、トークン化器(例えば、$n$-grams)、トークン重み付けスキームがスペインの2つのコーパスで訓練された分類器(Support Vector Machine)の精度に最も影響を与えるかを特定することである。
使用する手法は、テキスト変換とそれらのパラメータのすべての組み合わせを徹底的に分析し、最もパフォーマンスの高い分類器が共通する特徴を見つけることである。
さらに、研究されている異なるテキスト変換のうち、単語ベースの$n$-gramと文字ベースの$q$-gramの組み合わせに基づく新しいアプローチを導入する。
この新たな単語と文字の組み合わせは、INEGIデータセットとTASS'15データセットにおいて、従来の単語ベースの組み合わせをそれぞれ11.17\%$と5.62\%$で上回る分類器を生成することを示す。
関連論文リスト
- Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective [50.261681681643076]
本稿では,SemVarEffectとSemVarBenchというベンチマークを用いて,テキスト・画像合成における入力のセマンティックな変化と出力の因果性を評価する。
本研究は,T2I合成コミュニティによるヒューマンインストラクション理解の探索を促進する効果的な評価枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T08:45:35Z) - Human-in-the-Loop Synthetic Text Data Inspection with Provenance Tracking [11.022295941449919]
Inspectorは,ループ内データ検査技術である。
ユーザスタディでは,感情分析タスクでは3X,ヘイトスピーチ検出タスクでは4X,正確なラベル付きテキスト数が増加する。
論文 参考訳(メタデータ) (2024-04-29T17:16:27Z) - Leveraging ChatGPT As Text Annotation Tool For Sentiment Analysis [6.596002578395151]
ChatGPTはOpenAIの新製品で、最も人気のあるAI製品として登場した。
本研究では、さまざまな感情分析タスクのためのデータラベリングツールとしてのChatGPTについて検討する。
論文 参考訳(メタデータ) (2023-06-18T12:20:42Z) - Lexical Complexity Prediction: An Overview [13.224233182417636]
テキスト中の未知の単語の発生は、読書の理解を著しく妨げている。
計算モデリングは、テキスト中の複雑な単語を識別し、より単純な代替語に置き換えるために応用されている。
本稿では,英文データに基づく語彙複雑性予測に対する計算手法の概要について述べる。
論文 参考訳(メタデータ) (2023-03-08T19:35:08Z) - Like a Good Nearest Neighbor: Practical Content Moderation and Text
Classification [66.02091763340094]
LaGoNN(Good Nearest Neighbor)は、学習可能なパラメータを導入することなく、隣人の情報で入力テキストを変更するSetFitの変更である。
LaGoNNは望ましくないコンテンツやテキスト分類のフラグ付けに有効であり、SetFitのパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-02-17T15:43:29Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Context-Sensitive Visualization of Deep Learning Natural Language
Processing Models [9.694190108703229]
そこで我々は,新しいNLP変換器のコンテキスト依存可視化手法を提案する。
アウトプットに最も影響を与えるトークン(単語)の最も重要なグループを見つけます。
最も影響力のある単語の組み合わせはヒートマップで視覚化される。
論文 参考訳(メタデータ) (2021-05-25T20:26:38Z) - Match-Ignition: Plugging PageRank into Transformer for Long-form Text
Matching [66.71886789848472]
実効性と効率性に対処する新しい階層型ノイズフィルタリングモデルであるMatch-Ignitionを提案する。
基本的なアイデアは、よく知られたPageRankアルゴリズムをTransformerに接続し、文と単語レベルの騒々しい情報を識別およびフィルタリングすることです。
文が長文の基本単位であるため、ノイズの多い文はたいてい簡単に検出できるので、PageRankを直接使用してそのような情報をフィルタリングする。
論文 参考訳(メタデータ) (2021-01-16T10:34:03Z) - TextScanner: Reading Characters in Order for Robust Scene Text
Recognition [60.04267660533966]
TextScannerはシーンテキスト認識の代替手法である。
文字クラス、位置、順序に対する画素単位のマルチチャネルセグメンテーションマップを生成する。
また、コンテキストモデリングにRNNを採用し、文字の位置とクラスを並列で予測する。
論文 参考訳(メタデータ) (2019-12-28T07:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。