論文の概要: A Comparison of Synthetic Oversampling Methods for Multi-class Text
Classification
- arxiv url: http://arxiv.org/abs/2008.04636v1
- Date: Tue, 11 Aug 2020 11:41:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 10:35:50.443499
- Title: A Comparison of Synthetic Oversampling Methods for Multi-class Text
Classification
- Title(参考訳): 多クラステキスト分類のための合成オーバーサンプリング法の比較
- Authors: Anna Glazkova
- Abstract要約: 著者らは,マルチクラストピック分類の問題に対するオーバーサンプリング手法の比較を行った。
SMOTEアルゴリズムは最も人気のあるオーバーサンプリング手法の1つである。
著者らは、このタスクでは、ニューラルネットワークよりもクラス不均衡により、KNNとSVMアルゴリズムの品質が影響を受けていると結論付けている。
- 参考スコア(独自算出の注目度): 2.28438857884398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The authors compared oversampling methods for the problem of multi-class
topic classification. The SMOTE algorithm underlies one of the most popular
oversampling methods. It consists in choosing two examples of a minority class
and generating a new example based on them. In the paper, the authors compared
the basic SMOTE method with its two modifications (Borderline SMOTE and ADASYN)
and random oversampling technique on the example of one of text classification
tasks. The paper discusses the k-nearest neighbor algorithm, the support vector
machine algorithm and three types of neural networks (feedforward network, long
short-term memory (LSTM) and bidirectional LSTM). The authors combine these
machine learning algorithms with different text representations and compared
synthetic oversampling methods. In most cases, the use of oversampling
techniques can significantly improve the quality of classification. The authors
conclude that for this task, the quality of the KNN and SVM algorithms is more
influenced by class imbalance than neural networks.
- Abstract(参考訳): 著者らはマルチクラストピック分類の問題に対するオーバーサンプリング手法を比較した。
SMOTEアルゴリズムは最も人気のあるオーバーサンプリング手法の1つである。
マイノリティクラスの2つの例を選択し、それらに基づいて新しい例を生成する。
本稿では,テキスト分類タスクの例として,基本SMOTE法と2つの修正(Borderline SMOTEとADASYN)とランダムオーバーサンプリング手法を比較した。
本稿では,k-nearest 隣のアルゴリズム,サポートベクトルマシンアルゴリズム,ニューラルネットワーク(フィードフォワードネットワーク,長短期メモリ(LSTM),双方向LSTM)の3種類について論じる。
著者らはこれらの機械学習アルゴリズムを異なるテキスト表現と組み合わせ、合成オーバーサンプリング法を比較した。
ほとんどの場合、オーバーサンプリング技術を使うことは分類の質を大幅に改善することができる。
著者らは、このタスクでは、ニューラルネットワークよりもクラス不均衡により、KNNとSVMアルゴリズムの品質が影響を受けていると結論付けている。
関連論文リスト
- A Quantum Approach to Synthetic Minority Oversampling Technique (SMOTE) [1.5186937600119894]
本稿では,機械学習データセットにおけるクラス不均衡の問題を解くために,Quantum-SMOTE法を提案する。
量子SMOTEはスワップテストや量子回転といった量子プロセスを用いて合成データポイントを生成する。
このアプローチは、Telecom Churnの公開データセットでテストされ、その影響と、さまざまな合成データの比率を決定する。
論文 参考訳(メタデータ) (2024-02-27T10:46:36Z) - Intra-class Adaptive Augmentation with Neighbor Correction for Deep
Metric Learning [99.14132861655223]
深層学習のためのクラス内適応拡張(IAA)フレームワークを提案する。
クラスごとのクラス内変動を合理的に推定し, 適応型合成試料を生成し, 硬質試料の採掘を支援する。
本手法は,検索性能の最先端手法を3%~6%向上させる。
論文 参考訳(メタデータ) (2022-11-29T14:52:38Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - Large-Margin Representation Learning for Texture Classification [67.94823375350433]
本稿では,テクスチャ分類のための小さなデータセット上で教師付きモデルをトレーニングするために,畳み込み層(CL)と大規模計量学習を組み合わせた新しいアプローチを提案する。
テクスチャと病理画像データセットの実験結果から,提案手法は同等のCNNと比較して計算コストが低く,収束が早く,競争精度が向上することが示された。
論文 参考訳(メタデータ) (2022-06-17T04:07:45Z) - Gated recurrent units and temporal convolutional network for multilabel
classification [122.84638446560663]
本研究は,マルチラベル分類を管理するための新しいアンサンブル手法を提案する。
提案手法のコアは,Adamグラデーション最適化アプローチの変種で訓練された,ゲート再帰単位と時間畳み込みニューラルネットワークの組み合わせである。
論文 参考訳(メタデータ) (2021-10-09T00:00:16Z) - A multi-schematic classifier-independent oversampling approach for
imbalanced datasets [0.0]
従来の研究から、異なるオーバーサンプリングアルゴリズムは異なる分類器で異なる効率の度合いを持つことが明らかである。
本稿では,マルチスキーマおよび分類器に依存しないオーバーサンプリング手法であるProWRASを用いて,この問題を克服する。
ProWRASはローカライズされたランダムアフィンシャドウサンプリング (LoRAS) アルゴリズムと Proximity Weighted Synthetic Oversampling (ProWSyn) アルゴリズムを統合している。
論文 参考訳(メタデータ) (2021-07-15T14:03:24Z) - A Novel Adaptive Minority Oversampling Technique for Improved
Classification in Data Imbalanced Scenarios [23.257891827728827]
異なるクラスに属するトレーニングサンプルの割合の不均衡は、しばしば従来の分類器の性能低下を引き起こす。
不均衡なデータに対処する新しい3ステップ手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T09:58:02Z) - A Method for Handling Multi-class Imbalanced Data by Geometry based
Information Sampling and Class Prioritized Synthetic Data Generation (GICaPS) [15.433936272310952]
本稿では,多ラベル分類問題における不均衡データ処理の問題について考察する。
特徴ベクトル間の幾何学的関係を利用する2つの新しい手法が提案されている。
提案手法の有効性は,汎用的なマルチクラス認識問題を解くことによって解析する。
論文 参考訳(メタデータ) (2020-10-11T04:04:26Z) - A Systematic Characterization of Sampling Algorithms for Open-ended
Language Generation [71.31905141672529]
本稿では,自己回帰型言語モデルに広く採用されている祖先サンプリングアルゴリズムについて検討する。
エントロピー低減, 秩序保存, 斜面保全の3つの重要な特性を同定した。
これらの特性を満たすサンプリングアルゴリズムのセットが,既存のサンプリングアルゴリズムと同等に動作することがわかった。
論文 参考訳(メタデータ) (2020-09-15T17:28:42Z) - Ensemble Wrapper Subsampling for Deep Modulation Classification [70.91089216571035]
受信した無線信号のサブサンプリングは、ハードウェア要件と信号処理アルゴリズムの計算コストを緩和するために重要である。
本稿では,無線通信システムにおけるディープラーニングを用いた自動変調分類のためのサブサンプリング手法を提案する。
論文 参考訳(メタデータ) (2020-05-10T06:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。