論文の概要: Using GAN-based models to sentimental analysis on imbalanced datasets in
education domain
- arxiv url: http://arxiv.org/abs/2108.12061v1
- Date: Thu, 26 Aug 2021 23:00:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-30 20:26:14.200227
- Title: Using GAN-based models to sentimental analysis on imbalanced datasets in
education domain
- Title(参考訳): GANモデルを用いた教育領域における不均衡データセットの感情分析
- Authors: Ru Yang, Maryam Edalati
- Abstract要約: 本稿では、バランスの取れたデータセットと不均衡なデータセットの両方を用いて、感情分類のための機械学習モデルとディープラーニングモデルを訓練する。
データセットのバランスをとるために生成されたテキストを使用すると、感情分類における機械学習とディープラーニングモデルのF1スコアは2.79%の9.28%増加する。
- 参考スコア(独自算出の注目度): 0.6091702876917281
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: While the whole world is still struggling with the COVID-19 pandemic, online
learning and home office become more common. Many schools transfer their
courses teaching to the online classroom. Therefore, it is significant to mine
the students' feedback and opinions from their reviews towards studies so that
both schools and teachers can know where they need to improve. This paper
trains machine learning and deep learning models using both balanced and
imbalanced datasets for sentiment classification. Two SOTA category-aware text
generation GAN models: CatGAN and SentiGAN, are utilized to synthesize text
used to balance the highly imbalanced dataset. Results on three datasets with
different imbalance degree from distinct domains show that when using generated
text to balance the dataset, the F1-score of machine learning and deep learning
model on sentiment classification increases 2.79% ~ 9.28%. Also, the results
indicate that the average growth degree for CR100k is higher than CR23k, the
average growth degree for deep learning is more increased than machine learning
algorithms, and the average growth degree for more complex deep learning models
is more increased than simpler deep learning models in experiments.
- Abstract(参考訳): 新型コロナウイルス(COVID-19)のパンデミックで世界中が苦戦している中、オンライン学習とホームオフィスはますます一般的になっている。
多くの学校が授業をオンライン教室に移している。
そのため,学校と教員の双方が改善すべき点を把握できるように,学生のレビューからのフィードバックや意見を研究に向けて掘り下げることが重要である。
本稿では、感情分類のための均衡データセットと不均衡データセットの両方を用いて、機械学習とディープラーニングモデルを訓練する。
2つのSOTAカテゴリ対応テキスト生成GANモデル、CatGANとSentiGANを使用して、高度に不均衡なデータセットのバランスをとるために使用されるテキストを合成する。
異なる領域から異なる不均衡度を持つ3つのデータセットの結果、データセットのバランスをとるために生成されたテキストを使用すると、感情分類における機械学習とディープラーニングモデルのF1スコアは2.79%から9.28%増加する。
また,cr100kの平均成長度はcr23kよりも高く,深層学習の平均成長度は機械学習アルゴリズムよりも高く,複雑な深層学習モデルの平均成長度は実験における単純な深層学習モデルよりも高くなることが示された。
関連論文リスト
- Data Augmentation for Sparse Multidimensional Learning Performance Data Using Generative AI [17.242331892899543]
学習パフォーマンスデータは、適応学習における正しい解答や問題解決の試みを記述している。
学習性能データは、適応的なアイテム選択のため、ほとんどの実世界のアプリケーションでは、非常にスパースな(80%(sim)90%の欠落)傾向にある。
本稿では,学習者のデータの分散性に対処するために,学習者のデータを拡張するための体系的フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T00:25:07Z) - Scaling Laws Do Not Scale [54.72120385955072]
最近の研究によると、データセットのサイズが大きくなると、そのデータセットでトレーニングされたモデルのパフォーマンスが向上する。
このスケーリング法則の関係は、モデルのアウトプットの質を異なる集団がどのように認識するかと一致しないパフォーマンスを測定するために使われる指標に依存する、と我々は主張する。
異なるコミュニティは、互いに緊張関係にある価値を持ち、モデル評価に使用されるメトリクスについて、困難で、潜在的に不可能な選択をもたらす可能性がある。
論文 参考訳(メタデータ) (2023-07-05T15:32:21Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Towards Understanding How Data Augmentation Works with Imbalanced Data [17.478900028887537]
本稿では,データ拡張が3つの異なる分類器,畳み込みニューラルネットワーク,サポートベクトルマシン,ロジスティック回帰モデルに与える影響について検討する。
本研究は,不均衡データに適用した場合,モデル重み,サポートベクトル,特徴選択に大きな変化が生じることを示す。
DAはデータの分散を促進することによって機能し、機械学習モデルがデータの変化とラベルを関連付けることができる、という仮説を立てる。
論文 参考訳(メタデータ) (2023-04-12T15:01:22Z) - Directed Acyclic Graph Factorization Machines for CTR Prediction via
Knowledge Distillation [65.62538699160085]
本稿では,既存の複雑な相互作用モデルから,知識蒸留によるCTR予測のための高次特徴相互作用を学習するための非巡回グラフファクトリゼーションマシン(KD-DAGFM)を提案する。
KD-DAGFMは、オンラインとオフラインの両方の実験において、最先端のFLOPの21.5%未満で最高の性能を達成する。
論文 参考訳(メタデータ) (2022-11-21T03:09:42Z) - Exploring the Effects of Data Augmentation for Drivable Area
Segmentation [0.0]
既存の画像データセットを解析することで、データ拡張の利点を調べることに重点を置いている。
以上の結果から,既存技術(SOTA)モデルの性能とロバスト性は劇的に向上する可能性が示唆された。
論文 参考訳(メタデータ) (2022-08-06T03:39:37Z) - Class Balancing GAN with a Classifier in the Loop [58.29090045399214]
本稿では,GANを学習するための理論的動機付けクラスバランス正則化器を提案する。
我々の正規化器は、訓練済みの分類器からの知識を利用して、データセット内のすべてのクラスのバランスの取れた学習を確実にします。
複数のデータセットにまたがる既存手法よりも優れた性能を達成し,長期分布の学習表現における正規化器の有用性を実証する。
論文 参考訳(メタデータ) (2021-06-17T11:41:30Z) - Self-Damaging Contrastive Learning [92.34124578823977]
ラベルのないデータは一般に不均衡であり、長い尾の分布を示す。
本稿では,クラスを知らずに表現学習を自動的にバランスをとるための,自己学習コントラスト学習という原則的枠組みを提案する。
実験の結果,SDCLRは全体としての精度だけでなく,バランス性も著しく向上することがわかった。
論文 参考訳(メタデータ) (2021-06-06T00:04:49Z) - Text Classification Using Hybrid Machine Learning Algorithms on Big Data [0.0]
本研究では,2つの教師付き機械学習アルゴリズムとテキストマイニング技術を組み合わせてハイブリッドモデルを生成する。
その結果、ハイブリッドモデルはそれぞれ61.45%と69.21%のNa"ive BayesとSVMモデルに対して96.76%の精度を示した。
論文 参考訳(メタデータ) (2021-03-30T19:02:48Z) - Long-Tailed Recognition Using Class-Balanced Experts [128.73438243408393]
本稿では,多様な分類器の強度を組み合わせたクラスバランスの専門家のアンサンブルを提案する。
私たちのクラスバランスの専門家のアンサンブルは、最先端に近い結果に到達し、長い尾の認識のための2つのベンチマークで新たな最先端のアンサンブルを確立します。
論文 参考訳(メタデータ) (2020-04-07T20:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。