論文の概要: Performance Evaluation of Sentiment Analysis on Text and Emoji Data Using End-to-End, Transfer Learning, Distributed and Explainable AI Models
- arxiv url: http://arxiv.org/abs/2502.13278v1
- Date: Tue, 18 Feb 2025 20:58:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 14:01:40.469679
- Title: Performance Evaluation of Sentiment Analysis on Text and Emoji Data Using End-to-End, Transfer Learning, Distributed and Explainable AI Models
- Title(参考訳): エンド・ツー・エンド, トランスファーラーニング, 分散型, 説明可能なAIモデルを用いたテキスト・絵文字データの知覚分析の性能評価
- Authors: Sirisha Velampalli, Chandrashekar Muniyappa, Ashutosh Saxena,
- Abstract要約: ツイートの感情分析をKaggleの絵文字データセット上で行った。
両モデルのテキスト分類精度は98%前後でほぼ同じであった。
検証セットがトレーニングセットに存在しない絵文字を使用して構築されると、両方のモデルの精度は劇的に低下し、70%に低下した。
- 参考スコア(独自算出の注目度): 0.12499537119440242
- License:
- Abstract: Emojis are being frequently used in todays digital world to express from simple to complex thoughts more than ever before. Hence, they are also being used in sentiment analysis and targeted marketing campaigns. In this work, we performed sentiment analysis of Tweets as well as on emoji dataset from the Kaggle. Since tweets are sentences we have used Universal Sentence Encoder (USE) and Sentence Bidirectional Encoder Representations from Transformers (SBERT) end-to-end sentence embedding models to generate the embeddings which are used to train the Standard fully connected Neural Networks (NN), and LSTM NN models. We observe the text classification accuracy was almost the same for both the models around 98 percent. On the contrary, when the validation set was built using emojis that were not present in the training set then the accuracy of both the models reduced drastically to 70 percent. In addition, the models were also trained using the distributed training approach instead of a traditional singlethreaded model for better scalability. Using the distributed training approach, we were able to reduce the run-time by roughly 15% without compromising on accuracy. Finally, as part of explainable AI the Shap algorithm was used to explain the model behaviour and check for model biases for the given feature set.
- Abstract(参考訳): 絵文字は、かつてないほど単純な思考から複雑な思考へと表現するために、今日のデジタル世界で頻繁に使われています。
そのため、感情分析やターゲットマーケティングキャンペーンにも使用されている。
本研究では、ツイートの感情分析と、Kaggleの絵文字データセットを用いた。
ツイートは文であるので、標準完全連結ニューラルネットワーク(NN)とLSTM NNモデルをトレーニングするために使用される埋め込みモデルを生成するために、変換器(SBERT)のUniversal Sentence Encoder(USE)とSentence Bidirectional Encoder Representationsを使用しています。
両モデルのテキスト分類精度は98%前後でほぼ同じであった。
逆に、トレーニングセットに存在しない絵文字を使って検証セットを構築すると、両方のモデルの精度は劇的に低下し、70%に低下した。
さらに、モデルのスケーラビリティ向上のために、従来のシングルスレッドモデルではなく、分散トレーニングアプローチを使用したトレーニングも行われた。
分散トレーニングアプローチを使用することで、精度を損なうことなく、実行時間を約15%削減することができたのです。
最後に、説明可能なAIの一部として、Shapアルゴリズムを使用してモデル動作を説明し、与えられた機能セットのモデルバイアスをチェックする。
関連論文リスト
- Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens [53.99177152562075]
視覚における自己回帰モデルのスケールアップは、大きな言語モデルほど有益でないことが証明されている。
モデルが離散トークンを使用するか、連続トークンを使用するか、BERTやGPTのようなトランスフォーマーアーキテクチャを用いてランダムまたは固定順序でトークンを生成するか、という2つの重要な要素に焦点を当てる。
その結果,すべてのモデルが検証損失の点で効果的にスケールしているのに対して,評価性能はFID,GenEvalスコア,視覚的品質などによって異なる傾向を呈することがわかった。
論文 参考訳(メタデータ) (2024-10-17T17:59:59Z) - Learning to Play Atari in a World of Tokens [4.880437151994464]
変換器に基づく学習(DART)のための離散抽象表現を導入する。
本研究では,自己回帰的世界モデリングのためのトランスフォーマー・デコーダと,世界モデルの離散表現におけるタスク関連キューへの参加による学習行動のためのトランスフォーマー・デコーダを組み込んだ。
DARTは、Atari 100kサンプル効率ベンチマークでルックアヘッド検索を使用しない従来の最先端の手法よりも、平均的な人間正規化スコアが0.790で、26試合中9試合で人間に勝っている。
論文 参考訳(メタデータ) (2024-06-03T14:25:29Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Reducing Computational Costs in Sentiment Analysis: Tensorized Recurrent
Networks vs. Recurrent Networks [0.12891210250935145]
特定のテキストに対する聴衆の反応を期待することは、政治、研究、商業産業など、社会のいくつかの側面に不可欠である。
感性分析(英: Sentiment Analysis、SA)は、語彙・統計・深層学習法を用いて、異なるサイズのテキストが肯定的、否定的、中立的な感情を示すかどうかを判断する有用な自然言語処理(NLP)技術である。
論文 参考訳(メタデータ) (2023-06-16T09:18:08Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [49.15931834209624]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Transformer-based Language Model Fine-tuning Methods for COVID-19 Fake
News Detection [7.29381091750894]
偽ニュース検出のためのトランスフォーマーに基づく言語モデルの微調整手法を提案する。
まず、個々のモデルのトークン語彙を専門用語の実際の意味論のために拡張する。
最後に、普遍言語モデルRoBERTaとドメイン固有モデルCT-BERTによって抽出された予測特徴を、複数の層認識によって融合させ、微細で高レベルな特定の表現を統合する。
論文 参考訳(メタデータ) (2021-01-14T09:05:42Z) - A Token-wise CNN-based Method for Sentence Compression [31.9210679048841]
文圧縮は、原文の短縮とキー情報の保存を目的とした自然言語処理(NLP)タスクである。
現在の手法は主に処理速度の悪いリカレントニューラルネットワーク(RNN)モデルに基づいている。
本稿では,CNN ベースモデルであるトークンワイド・コナールニューラルネットワークと,削除に基づく文圧縮のための事前学習された双方向表現(BERT)機能を提案する。
論文 参考訳(メタデータ) (2020-09-23T17:12:06Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z) - Stacked DeBERT: All Attention in Incomplete Data for Text Classification [8.900866276512364]
変換器から双方向表現を重畳するスタックドデノナイズ(Stacked Denoising Bidirectional Representations)を提案する。
本モデルでは, 感情や意図の分類作業において, 音声テキスト誤りのあるツイートやテキストに現れる非公式/不正テキストにおいて, F1スコアが向上し, 堅牢性が向上したことを示す。
論文 参考訳(メタデータ) (2020-01-01T04:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。