論文の概要: Conditional Semi-Supervised Data Augmentation for Spam Message Detection with Low Resource Data
- arxiv url: http://arxiv.org/abs/2407.04990v1
- Date: Sat, 6 Jul 2024 07:51:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 21:37:47.030900
- Title: Conditional Semi-Supervised Data Augmentation for Spam Message Detection with Low Resource Data
- Title(参考訳): 低リソースデータを用いたスパムメッセージ検出のための条件付き半監督データ拡張
- Authors: Ulin Nuha, Chih-Hsueh Lin,
- Abstract要約: 本研究では,データの可用性に欠けるスパム検出モデルに対して,条件付き半教師付きデータ拡張を提案する。
トレーニングデータを拡張するために、ラベルのないデータをデータ拡張に活用する。
潜在変数は、最終分類器の入力としてラベル付きおよびラベルなしのデータから得ることができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Several machine learning schemes have attempted to perform the detection of spam messages. However, those schemes mostly require a huge amount of labeled data. The existing techniques addressing the lack of data availability have issues with effectiveness and robustness. Therefore, this paper proposes a conditional semi-supervised data augmentation (CSSDA) for a spam detection model lacking the availability of data. The main architecture of CSSDA comprises feature extraction and enhanced generative network. Here, we exploit unlabeled data for data augmentation to extend training data. The enhanced generative in our proposed scheme produces latent variables as fake samples from unlabeled data through a conditional scheme. Latent variables can come from labeled and unlabeled data as the input for the final classifier in our spam detection model. The experimental results indicate that our proposed CSSDA achieves excellent results compared to several related methods both exploiting unlabeled data and not. In the experiment stage with various amounts of unlabeled data, CSSDA is the only robust model that obtains a balanced accuracy of about 85% when the availability of labeled data is large. We also conduct several ablation studies to investigate our proposed scheme in detail. The result also shows that several ablation studies strengthen our proposed innovations. These experiments indicate that unlabeled data has a significant contribution to data augmentation using the conditional semi-supervised scheme for spam detection.
- Abstract(参考訳): いくつかの機械学習スキームがスパムメッセージの検出を試みている。
しかし、これらのスキームは大部分が大量のラベル付きデータを必要とする。
データ可用性の欠如に対処する既存の技術には、有効性と堅牢性に関する問題がある。
そこで本論文では,データの可用性に欠けるスパム検出モデルに対して,条件付き半教師付きデータ拡張(CSSDA)を提案する。
CSSDAの主なアーキテクチャは、特徴抽出と拡張生成ネットワークである。
ここでは、トレーニングデータを拡張するために、ラベルなしのデータをデータ拡張に活用する。
提案手法では, 条件付きスキームを用いて, ラベルのないデータから潜在変数を偽のサンプルとして生成する。
我々のスパム検出モデルにおける最終分類器の入力としてラベル付きおよびラベルなしのデータから潜伏変数を得ることができる。
実験結果から,提案したCSSDAは,ラベルなしデータの活用と利用の両面で,いくつかの関連手法と比較して優れた結果が得られたことが示唆された。
各種ラベル付きデータの実験段階において、ラベル付きデータの可用性が大きくなると、CSSDAはバランスの取れた精度が約85%になる唯一のロバストモデルである。
また,提案手法を詳細に検討するために,いくつかのアブレーション研究を行っている。
この結果は、いくつかのアブレーション研究が我々の提案したイノベーションを強化していることを示している。
これらの実験により, ラベル付きデータは, スパム検出のための条件付き半教師付きスキームを用いて, データの増大に大きく寄与していることがわかった。
関連論文リスト
- Deep Active Learning with Manifold-preserving Trajectory Sampling [2.0717982775472206]
アクティブラーニング(AL)は、アノテーション(ラベル付け)のためのラベルなしデータの選択を最適化するための方法である
既存のディープALメソッドは、間違いなく、ラベル付きデータによって引き起こされるバイアスに悩まされ、ALコンテキストにおけるラベルなしデータよりもはるかに低い割合で処理される。
我々は,より正確な多様体を表現するためにラベル付きデータから学習した特徴空間を強制することを目的とした,manifold-Preserving Trajectory Smpling (MPTS) という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T03:04:09Z) - Continuous Contrastive Learning for Long-Tailed Semi-Supervised Recognition [50.61991746981703]
現在の最先端のLTSSLアプローチは、大規模な未ラベルデータに対して高品質な擬似ラベルに依存している。
本稿では,長期学習における様々な提案を統一する新しい確率的枠組みを提案する。
我々は、信頼度とスムーズな擬似ラベルを用いて、我々のフレームワークをラベルなしデータに拡張する、連続的コントラスト学習手法であるCCLを導入する。
論文 参考訳(メタデータ) (2024-10-08T15:06:10Z) - Empowering HWNs with Efficient Data Labeling: A Clustered Federated
Semi-Supervised Learning Approach [2.046985601687158]
CFL(Clustered Federated Multitask Learning)は,統計的課題を克服するための効果的な戦略として注目されている。
本稿では,より現実的なHWNシナリオ用に設計された新しいフレームワークであるClustered Federated Semi-Supervised Learning (CFSL)を紹介する。
その結果,ラベル付きデータとラベル付きデータの比率が異なる場合,CFSLはテスト精度,ラベル付け精度,ラベル付け遅延などの重要な指標を著しく改善することがわかった。
論文 参考訳(メタデータ) (2024-01-19T11:47:49Z) - Semi-Supervised Object Detection with Uncurated Unlabeled Data for
Remote Sensing Images [16.660668160785615]
半教師付きオブジェクト検出(SSOD)手法は、ラベルのないデータに対して擬似ラベルを生成することでこの問題に対処する。
しかし、現実の状況では、ラベルなしデータセット内の分布外サンプル(OOD)と分布内サンプル(ID)が混在する可能性がある。
未ラベルデータに対するOpen-Set Semi-Supervised Object Detection (OSSOD)を提案する。
論文 参考訳(メタデータ) (2023-10-09T07:59:31Z) - Are labels informative in semi-supervised learning? -- Estimating and
leveraging the missing-data mechanism [4.675583319625962]
半教師付き学習は、ラベルのないデータを利用して機械学習モデルを改善するための強力な技術である。
これは、あるクラスが他のクラスよりもラベル付けされる可能性が高い場合に発生する、情報的ラベルの存在に影響される可能性がある。
本稿では,データ不足のメカニズムを推定し,逆確率重み付けを用いてSSLアルゴリズムを劣化させることにより,この問題に対処する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-02-15T09:18:46Z) - Exploiting Mixed Unlabeled Data for Detecting Samples of Seen and Unseen
Out-of-Distribution Classes [5.623232537411766]
現実世界のアプリケーションでは、アウト・オブ・ディストリビューション(OOD)検出が不可欠であり、近年注目を集めている。
既存のOOD検出方法は、多くのラベル付きIn-Distribution(ID)データを必要とするため、大量のラベル付けコストが発生する。
本稿では,限られたラベル付きデータと豊富なラベル付きデータが利用可能な,より現実的なシナリオに焦点を当てる。
混合ラベル付きデータから潜在的なIDとOODサンプルを適応的に選択する適応型In-Out-Aware Learning(AIOL)法を提案する。
論文 参考訳(メタデータ) (2022-10-13T08:34:25Z) - Prompt-driven efficient Open-set Semi-supervised Learning [52.30303262499391]
オープンセット半教師付き学習(OSSL)は関心を集めており、未ラベルデータにのみOOD(Out-of-distribution)サンプルが組み込まれているというより実践的なシナリオを調査している。
我々はOpenPromptと呼ばれる,プロンプト駆動の効率的なOSSLフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-28T16:25:08Z) - ADT-SSL: Adaptive Dual-Threshold for Semi-Supervised Learning [68.53717108812297]
Semi-Supervised Learning (SSL)は、ラベル付きデータとラベルなしデータを併用してモデルをトレーニングすることで、高度な分類タスクを実現している。
本稿では,半教師付き学習(ADT-SSL)のための適応的デュアル閾値法を提案する。
実験の結果,提案したADT-SSLは最先端の分類精度を実現することがわかった。
論文 参考訳(メタデータ) (2022-05-21T11:52:08Z) - Self-Trained One-class Classification for Unsupervised Anomaly Detection [56.35424872736276]
異常検出(AD)は、製造から医療まで、さまざまな分野に応用されている。
本研究は、トレーニングデータ全体がラベル付けされておらず、正規サンプルと異常サンプルの両方を含む可能性のある、教師なしAD問題に焦点を当てる。
この問題に対処するため,データリファインメントによる堅牢な一級分類フレームワークを構築した。
本手法は6.3AUCと12.5AUCの平均精度で最先端の1クラス分類法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-11T01:36:08Z) - Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。
我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。
実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文 参考訳(メタデータ) (2021-02-09T20:28:35Z) - Multi-Task Curriculum Framework for Open-Set Semi-Supervised Learning [54.85397562961903]
ラベル付きデータに制限がある場合に、ラベルなしデータを利用して強力なモデルをトレーニングする半教師付き学習(SSL)が提案されている。
我々は、Open-set SSLと呼ばれるより複雑な新しいシナリオに対処する。
提案手法は,OOD試料の効果を除去し,最先端の結果を得る。
論文 参考訳(メタデータ) (2020-07-22T10:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。