論文の概要: Empirical Study of Text Augmentation on Social Media Text in Vietnamese
- arxiv url: http://arxiv.org/abs/2009.12319v2
- Date: Fri, 9 Oct 2020 09:40:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 22:59:27.750304
- Title: Empirical Study of Text Augmentation on Social Media Text in Vietnamese
- Title(参考訳): ベトナムにおけるソーシャルメディアテキストのテキスト増補に関する実証的研究
- Authors: Son T. Luu, Kiet Van Nguyen and Ngan Luu-Thuy Nguyen
- Abstract要約: テキスト分類問題では、データセット内のラベルの不均衡がテキスト分類モデルの性能に影響を及ぼす。
データセットのクラス間の不均衡問題を解決するために,データ拡張手法を適用した。
増量の結果、両コーパスのF1マクロスコアは約1.5%増加する。
- 参考スコア(独自算出の注目度): 3.0938904602244355
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In the text classification problem, the imbalance of labels in datasets
affect the performance of the text-classification models. Practically, the data
about user comments on social networking sites not altogether appeared - the
administrators often only allow positive comments and hide negative comments.
Thus, when collecting the data about user comments on the social network, the
data is usually skewed about one label, which leads the dataset to become
imbalanced and deteriorate the model's ability. The data augmentation
techniques are applied to solve the imbalance problem between classes of the
dataset, increasing the prediction model's accuracy. In this paper, we
performed augmentation techniques on the VLSP2019 Hate Speech Detection on
Vietnamese social texts and the UIT - VSFC: Vietnamese Students' Feedback
Corpus for Sentiment Analysis. The result of augmentation increases by about
1.5% in the F1-macro score on both corpora.
- Abstract(参考訳): テキスト分類問題では、データセット内のラベルの不均衡がテキスト分類モデルの性能に影響を及ぼす。
実際には、ソーシャルネットワークサイトのユーザーコメントに関するデータは、完全には現れていない。
したがって、ソーシャルネットワーク上でユーザコメントに関するデータを収集する場合、通常、データは1つのラベルに歪められ、データセットが不均衡になり、モデルの能力が低下する。
データ拡張技術はデータセットのクラス間の不均衡問題を解決するために適用され、予測モデルの精度が向上する。
本稿では,ベトナム語ソーシャルテキストにおけるvlsp2019ヘイトスピーチ検出と,ベトナム人学生の感情分析のためのフィードバックコーパスであるuit - vsfcについて拡張手法を行った。
増強の結果は両コーパスのf1-macroスコアで約1.5%増加した。
関連論文リスト
- The Empirical Impact of Data Sanitization on Language Models [1.1359551336076306]
本稿では,複数のベンチマーク言語モデリングタスクにおけるデータ・サニタイズの効果を実証的に分析する。
以上の結果から,感情分析やエンテーメントなどのタスクでは,リアクションの影響は極めて低く,典型的には1~5%程度であることが示唆された。
理解的なQ&Aのようなタスクでは、オリジナルのものと比較して、再実行クエリで観測されるパフォーマンスの25%が大幅に低下している。
論文 参考訳(メタデータ) (2024-11-08T21:22:37Z) - Hate Speech Detection Using Cross-Platform Social Media Data In English and German Language [6.200058263544999]
本研究は,YouTubeコメントにおけるバイリンガルヘイトスピーチの検出に焦点を当てた。
コンテントの類似性、定義の類似性、一般的なヘイトワードなど、データセットがパフォーマンスに与える影響を測定する要素が含まれています。
最高のパフォーマンスは、YouTubeコメント、Twitter、Gabのデータセットと、英語とドイツ語のYouTubeコメントのためのF1スコアの0.74と0.68を組み合わせることで得られる。
論文 参考訳(メタデータ) (2024-10-02T10:22:53Z) - Improving Sampling Methods for Fine-tuning SentenceBERT in Text Streams [49.3179290313959]
本研究では,選択的な微調整言語モデルの設計した7つのテキストサンプリング手法の有効性について検討した。
これらの手法がSBERTモデルの微調整に与える影響を, 4つの異なる損失関数を用いて正確に評価する。
その結果,テキストストリームの分類にはソフトマックスの損失とバッチ・オール・トリプレットの損失が特に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T23:41:52Z) - Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。
その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。
また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文 参考訳(メタデータ) (2023-11-06T19:00:05Z) - Harnessing the Power of Text-image Contrastive Models for Automatic
Detection of Online Misinformation [50.46219766161111]
誤情報識別の領域における構成的学習を探求する自己学習モデルを構築した。
本モデルでは、トレーニングデータが不十分な場合、非マッチング画像-テキストペア検出の優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-19T02:53:59Z) - Data Augmentation for Mental Health Classification on Social Media [0.0]
オンライン利用者の精神障害はソーシャルメディア投稿を用いて決定される。
この領域における大きな課題は、ソーシャルメディアプラットフォーム上でユーザーが生成したテキストを使用するための倫理的クリアランスを活用することである。
メンタルヘルス分類のためのドメイン固有ユーザ生成テキストに対するデータ拡張手法の効果について検討した。
論文 参考訳(メタデータ) (2021-12-19T05:09:01Z) - Data Expansion using Back Translation and Paraphrasing for Hate Speech
Detection [1.192436948211501]
本稿では,バック翻訳手法を融合した新しい深層学習手法と,データ拡張のためのパラフレージング手法を提案する。
AskFm corpus, Formspring データセット, Warner と Waseem データセット, Olid および Wikipedia の有毒なコメントデータセットである。
論文 参考訳(メタデータ) (2021-05-25T09:52:42Z) - A Large-scale Dataset for Hate Speech Detection on Vietnamese Social
Media Texts [0.32228025627337864]
ViHSDは、ソーシャルネットワーク上でヘイトスピーチを自動的に検出する人間アノテーション付きデータセットである。
このデータセットには30,000以上のコメントが含まれており、データセットの各コメントにはCLEAN、OFENSIVE、HATEの3つのラベルの1つが含まれている。
論文 参考訳(メタデータ) (2021-03-22T00:55:47Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - Deep F-measure Maximization for End-to-End Speech Understanding [52.36496114728355]
本稿では,F測度に対する微分可能な近似法を提案し,標準バックプロパゲーションを用いてネットワークをトレーニングする。
我々は、アダルト、コミュニティ、犯罪の2つの標準フェアネスデータセットの実験を行い、ATISデータセットの音声・インテリジェンス検出と音声・COCOデータセットの音声・イメージ概念分類を行った。
これらの4つのタスクのすべてにおいて、F測定は、クロスエントロピー損失関数で訓練されたモデルと比較して、最大8%の絶対的な絶対的な改善を含む、マイクロF1スコアの改善をもたらす。
論文 参考訳(メタデータ) (2020-08-08T03:02:27Z) - Semi-Supervised Models via Data Augmentationfor Classifying Interactive
Affective Responses [85.04362095899656]
本稿では、対話型感情応答を分類する半教師付きテキスト分類システムSMDA(Data Augmentation)を提案する。
ラベル付き文に対しては,ラベル分布の均一化と学習過程における教師付き損失の計算のためにデータ拡張を行った。
ラベルなし文に対しては,ラベルなし文に対する低エントロピー予測を擬似ラベルとして検討した。
論文 参考訳(メタデータ) (2020-04-23T05:02:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。