論文の概要: Based on Data Balancing and Model Improvement for Multi-Label Sentiment Classification Performance Enhancement
- arxiv url: http://arxiv.org/abs/2511.14073v2
- Date: Wed, 19 Nov 2025 14:56:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 13:41:21.123145
- Title: Based on Data Balancing and Model Improvement for Multi-Label Sentiment Classification Performance Enhancement
- Title(参考訳): マルチラベル感性分類性能向上のためのデータバランシングとモデルの改善
- Authors: Zijin Su, Huanzhu Lyu, Yuren Niu, Yiming Liu,
- Abstract要約: マルチラベル感情分類は、一つのテキスト内で複数の感情を検出することによって、自然言語処理において重要な役割を果たす。
GoEmotionsのような既存のデータセットは、しばしば厳しいクラス不均衡に悩まされ、パフォーマンスを損なう。
我々は、GoEmotionsデータ、Sentiment140からの感情ラベル付きサンプル、手作業による注釈付きテキストを用いて、バランスの取れたマルチラベル感情データセットを構築した。
実験結果は、不均衡なデータで訓練されたモデルと比較して、精度、精度、リコール、F1スコア、AUCを大幅に改善した。
- 参考スコア(独自算出の注目度): 5.149011601951617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-label sentiment classification plays a vital role in natural language processing by detecting multiple emotions within a single text. However, existing datasets like GoEmotions often suffer from severe class imbalance, which hampers model performance, especially for underrepresented emotions. To address this, we constructed a balanced multi-label sentiment dataset by integrating the original GoEmotions data, emotion-labeled samples from Sentiment140 using a RoBERTa-base-GoEmotions model, and manually annotated texts generated by GPT-4 mini. Our data balancing strategy ensured an even distribution across 28 emotion categories. Based on this dataset, we developed an enhanced multi-label classification model that combines pre-trained FastText embeddings, convolutional layers for local feature extraction, bidirectional LSTM for contextual learning, and an attention mechanism to highlight sentiment-relevant words. A sigmoid-activated output layer enables multi-label prediction, and mixed precision training improves computational efficiency. Experimental results demonstrate significant improvements in accuracy, precision, recall, F1-score, and AUC compared to models trained on imbalanced data, highlighting the effectiveness of our approach.
- Abstract(参考訳): マルチラベル感情分類は、一つのテキスト内で複数の感情を検出することによって、自然言語処理において重要な役割を果たす。
しかしながら、GoEmotionsのような既存のデータセットは、特に表現不足の感情に対して、パフォーマンスをモデル化する厳しいクラス不均衡に悩まされることが多い。
そこで我々は,オリジナルのGoEmotionsデータと,RoBERTa-base-GoEmotionsモデルを用いたSentiment140からの感情ラベル付きサンプルと,GPT-4 miniによる手作業による注釈付きテキストを組み合わせることで,バランスの取れたマルチラベル感情データセットを構築した。
データバランシング戦略により、28の感情カテゴリにまたがる均等な分散が保証されました。
このデータセットに基づいて、事前学習したFastText埋め込み、局所特徴抽出のための畳み込み層、文脈学習のための双方向LSTM、感情関連単語をハイライトするアテンションメカニズムを組み合わせたマルチラベル分類モデルを開発した。
シグモノイド活性化出力層は多ラベル予測が可能であり、混合精度トレーニングにより計算効率が向上する。
実験の結果,不均衡データを用いたモデルと比較して,精度,精度,リコール,F1スコア,AUCが有意に向上し,本手法の有効性が示された。
関連論文リスト
- Optimizing Small Transformer-Based Language Models for Multi-Label Sentiment Analysis in Short Texts [4.166512373146747]
短文の感情分類における小さなトランスフォーマーモデルの有効性を評価する。
データを拡張することで分類性能が向上するのに対し、拡張データセットの事前トレーニングは精度を向上するよりもノイズを発生させる可能性があることを示す。
論文 参考訳(メタデータ) (2025-09-05T10:08:14Z) - Improving Arabic Multi-Label Emotion Classification using Stacked Embeddings and Hybrid Loss Function [4.149971421068989]
本研究は、アラビア語における多言語感情分類を強化するために、積層埋め込み、メタラーニング、ハイブリッド損失関数を用いている。
さらに性能向上のために,クラス重み付け,ラベル相関,コントラスト学習を取り入れたハイブリッド損失関数を導入した。
実験では、Precision、Recall、F1-Score、Jaccard Accuracy、Hamming Lossといった主要なメトリクスで提案されたモデルのパフォーマンスを検証する。
論文 参考訳(メタデータ) (2024-10-04T23:37:21Z) - Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。
ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。
そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文 参考訳(メタデータ) (2024-06-26T05:30:21Z) - Self-Evolution Learning for Mixup: Enhance Data Augmentation on Few-Shot
Text Classification Tasks [75.42002070547267]
テキスト分類におけるデータ拡張のための自己進化学習(SE)に基づくミックスアップ手法を提案する。
モデル出力と原サンプルの1つのホットラベルを線形に補間して,新しい軟質なラベル混在を生成する,新しいインスタンス固有ラベル平滑化手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T23:43:23Z) - DeepEmotex: Classifying Emotion in Text Messages using Deep Transfer
Learning [0.0]
テキスト中の感情を検出する効果的なシーケンシャルトランスファー学習法としてDeepEmotexを提案する。
キュレートされたTwitterデータセットとベンチマークデータセットの両方を用いて実験を行った。
DeepEmotexモデルは、テストデータセット上でのマルチクラスの感情分類において91%以上の精度を達成する。
論文 参考訳(メタデータ) (2022-06-12T03:23:40Z) - Active Learning by Feature Mixing [52.16150629234465]
本稿では,ALFA-Mixと呼ばれるバッチ能動学習手法を提案する。
予測の不整合を求めることにより,不整合な特徴を持つインスタンスを同定する。
これらの予測の不整合は、モデルが未認識のインスタンスで認識できない特徴を発見するのに役立ちます。
論文 参考訳(メタデータ) (2022-03-14T12:20:54Z) - Revisiting LSTM Networks for Semi-Supervised Text Classification via
Mixed Objective Function [106.69643619725652]
我々は,単純なBiLSTMモデルであっても,クロスエントロピー損失でトレーニングした場合に,競争的な結果が得られるようなトレーニング戦略を開発する。
いくつかのベンチマークデータセット上で,テキスト分類タスクの最先端結果について報告する。
論文 参考訳(メタデータ) (2020-09-08T21:55:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。