論文の概要: ViGoEmotions: A Benchmark Dataset For Fine-grained Emotion Detection on Vietnamese Texts
- arxiv url: http://arxiv.org/abs/2602.08371v1
- Date: Mon, 09 Feb 2026 08:10:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.121742
- Title: ViGoEmotions: A Benchmark Dataset For Fine-grained Emotion Detection on Vietnamese Texts
- Title(参考訳): ViGoEmotions:ベトナム語テキストの詳細な感情検出のためのベンチマークデータセット
- Authors: Hung Quang Tran, Nam Tien Pham, Son T. Luu, Kiet Van Nguyen,
- Abstract要約: この研究はベトナムの感情コーパスViGoEmotionsを紹介します。
データセットの品質と感情分類への影響を評価するため、8つの事前学習されたトランスフォーマーモデルを評価した。
- 参考スコア(独自算出の注目度): 5.670093510042766
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Emotion classification plays a significant role in emotion prediction and harmful content detection. Recent advancements in NLP, particularly through large language models (LLMs), have greatly improved outcomes in this field. This study introduces ViGoEmotions -- a Vietnamese emotion corpus comprising 20,664 social media comments in which each comment is classified into 27 fine-grained distinct emotions. To evaluate the quality of the dataset and its impact on emotion classification, eight pre-trained Transformer-based models were evaluated under three preprocessing strategies: preserving original emojis with rule-based normalization, converting emojis into textual descriptions, and applying ViSoLex, a model-based lexical normalization system. Results show that converting emojis into text often improves the performance of several BERT-based baselines, while preserving emojis yields the best results for ViSoBERT and CafeBERT. In contrast, removing emojis generally leads to lower performance. ViSoBERT achieved the highest Macro F1-score of 61.50% and Weighted F1-score of 63.26%. Strong performance was also observed from CafeBERT and PhoBERT. These findings highlight that while the proposed corpus can support diverse architectures effectively, preprocessing strategies and annotation quality remain key factors influencing downstream performance.
- Abstract(参考訳): 感情分類は感情予測と有害なコンテンツ検出に重要な役割を果たしている。
NLPの最近の進歩、特に大規模言語モデル(LLM)により、この分野の成果は大幅に改善された。
この研究はベトナムの感情コーパスViGoEmotionsを紹介します。20,664のソーシャルメディアコメントで構成され、それぞれのコメントは27のきめ細かい感情に分類されます。
データセットの品質と感情分類への影響を評価するため,8つの事前学習されたトランスフォーマーベースモデルを,ルールベースの正規化によるオリジナル絵文字の保存,絵文字のテキスト記述への変換,モデルベースの語彙正規化システムであるViSoLexの適用の3つの前処理戦略に基づいて評価した。
その結果、絵文字をテキストに変換することで、いくつかのBERTベースのベースラインのパフォーマンスが向上する一方で、絵文字を保存することで、ViSoBERTとCafeBERTにとって最良の結果が得られることがわかった。
対照的に、絵文字の削除は一般的にパフォーマンスを低下させる。
ViSoBERTは61.50%のマクロF1スコアと63.26%の軽量F1スコアを達成した。
CafeBERT と PhoBERT からも強い性能が観察された。
これらの結果から,提案コーパスは多様なアーキテクチャを効果的にサポートできるが,前処理戦略やアノテーションの品質は下流のパフォーマンスに影響を及ぼす重要な要因であることがわかった。
関連論文リスト
- Understanding Textual Emotion Through Emoji Prediction [0.0]
本研究は,4つのディープラーニングアーキテクチャを用いた短いテキスト列からの絵文字予測について検討する。
BERTはトレーニング前の優位性のため、全体的なパフォーマンスが最も高い。
CNNは稀な絵文字クラスに対して優れた効果を示す。
論文 参考訳(メタデータ) (2025-08-13T22:17:00Z) - When Words Smile: Generating Diverse Emotional Facial Expressions from Text [77.1867389815291]
本稿では,感情動態に着目したエンドツーエンドのテキスト対表現モデルを提案する。
我々のモデルは連続的な潜伏空間における表情の変動を学習し、多様な、流動的で、感情的に一貫性のある表現を生成する。
論文 参考訳(メタデータ) (2024-12-03T15:39:05Z) - ASCIIEval: Benchmarking Models' Visual Perception in Text Strings via ASCII Art [83.95594027644124]
我々は,この問題を認識タスクとみなし,新しいベンチマークASCIIEvalを構築した。
精巧な分類木を持つ3Kサンプルに加えて、さらなる拡張のためのトレーニングセットもカバーしている。
テキスト入力が与えられた言語モデルは、ASCIIアートの概念に基づいて視覚的知覚能力を示す。
画像入力において,オープンソースのMLLMは,微細なテキスト認識と集合的視覚知覚のトレードオフに悩まされていることが明らかになった。
論文 参考訳(メタデータ) (2024-10-02T16:46:01Z) - Semantics Preserving Emoji Recommendation with Large Language Models [47.94761630160614]
既存の絵文字レコメンデーションメソッドは、ユーザーが元のテキストで選択した正確な絵文字にマッチする能力に基づいて、主に評価される。
本稿では,ユーザのテキストとのセマンティックな整合性を維持する絵文字を推薦するモデルの能力を計測する,絵文字推薦のための新しいセマンティックス保存フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-16T22:27:46Z) - EmojiLM: Modeling the New Emoji Language [44.23076273155259]
我々は,大規模言語モデルからテキスト絵文字並列コーパスであるText2Emojiを開発した。
並列コーパスに基づいて,テキスト・絵文字双方向翻訳に特化したシーケンス・ツー・シーケンス・モデルである絵文字LMを蒸留する。
提案モデルでは,強いベースラインを上回り,平行コーパスは絵文字関連下流タスクに有効である。
論文 参考訳(メタデータ) (2023-11-03T07:06:51Z) - Emoji Prediction in Tweets using BERT [0.0]
本稿では,広く使われている事前学習型言語モデルであるBERTを用いた絵文字予測のためのトランスフォーマーに基づく手法を提案する。
我々はBERTをテキストと絵文字の両方を含む大量のテキスト(つぶやき)のコーパスで微調整し、与えられたテキストに対して最も適切な絵文字を予測する。
実験の結果,提案手法は,75%以上の精度で絵文字の予測において,最先端のモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-07-05T06:38:52Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Emoji Prediction: Extensions and Benchmarking [30.642840676899734]
絵文字予測タスクは、テキストに関連付けられた適切な絵文字セットを予測することを目的としている。
我々は、絵文字予測タスクの既存の設定を拡張し、よりリッチな絵文字セットを含め、複数ラベルの分類を可能にする。
トランスフォーマーネットワークに基づくマルチクラス・マルチラベル絵文字予測のための新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-07-14T22:41:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。