論文の概要: Fake detection in imbalance dataset by Semi-supervised learning with GAN
- arxiv url: http://arxiv.org/abs/2212.01071v5
- Date: Wed, 20 Dec 2023 08:18:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 12:43:34.899708
- Title: Fake detection in imbalance dataset by Semi-supervised learning with GAN
- Title(参考訳): GANを用いた半教師付き学習による不均衡データセットのフェイク検出
- Authors: Jinus Bordbar, Saman Ardalan, Mohammadreza Mohammadrezaie, Zahra
Ghasemi
- Abstract要約: 本研究は,100個のラベル付きサンプルを用いた偽アカウントの検出において,81%の精度を達成し,この分野に寄与する。
これは、マイノリティクラスを扱い、偽アカウント検出におけるビッグデータの問題に対処するための強力なツールとしてのSGANの可能性を示している。
- 参考スコア(独自算出の注目度): 1.4542411354617986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As social media continues to grow rapidly, the prevalence of harassment on
these platforms has also increased. This has piqued the interest of researchers
in the field of fake detection. Social media data, often forms complex graphs
with numerous nodes, posing several challenges. These challenges and
limitations include dealing with a significant amount of irrelevant features in
matrices and addressing issues such as high data dispersion and an imbalanced
class distribution within the dataset. To overcome these challenges and
limitations, researchers have employed auto-encoders and a combination of
semi-supervised learning with a GAN algorithm, referred to as SGAN. Our
proposed method utilizes auto-encoders for feature extraction and incorporates
SGAN. By leveraging an unlabeled dataset, the unsupervised layer of SGAN
compensates for the limited availability of labeled data, making efficient use
of the limited number of labeled instances. Multiple evaluation metrics were
employed, including the Confusion Matrix and the ROC curve. The dataset was
divided into training and testing sets, with 100 labeled samples for training
and 1,000 samples for testing. The novelty of our research lies in applying
SGAN to address the issue of imbalanced datasets in fake account detection. By
optimizing the use of a smaller number of labeled instances and reducing the
need for extensive computational power, our method offers a more efficient
solution. Additionally, our study contributes to the field by achieving an 81%
accuracy in detecting fake accounts using only 100 labeled samples. This
demonstrates the potential of SGAN as a powerful tool for handling minority
classes and addressing big data challenges in fake account detection.
- Abstract(参考訳): ソーシャルメディアが急速に成長を続けるにつれ、これらのプラットフォームに対するハラスメントの流行も増加している。
これにより、偽検出の分野で研究者の関心が高まった。
ソーシャルメディアのデータは、多くのノードからなる複雑なグラフを形成することが多い。
これらの課題と制限には、行列における相当量の無関係な特徴に対処することや、高データ分散やデータセット内の不均衡クラス分散といった問題に対処することが含まれる。
これらの課題と限界を克服するために、研究者たちは自動エンコーダと、半教師付き学習と、SGANと呼ばれるGANアルゴリズムを組み合わせた。
提案手法は自動エンコーダを用いて特徴抽出を行い,SGANを組み込む。
ラベル付きデータセットを活用することで、SGANの教師なし層はラベル付きデータの限られた可用性を補償し、ラベル付きインスタンスの限られた数を効率的に利用する。
コンフュージョンマトリックスとROC曲線を含む複数の評価指標が採用された。
データセットはトレーニングとテストセットに分割され、100のラベル付きサンプルと1000のサンプルがテスト対象とされた。
我々の研究の新規性は、偽アカウント検出における不均衡データセットの問題に対処するためにSGANを適用することである。
より少ない数のラベル付きインスタンスの使用を最適化し、大規模な計算能力の必要性を減らすことにより、より効率的なソリューションを提供する。
さらに,100個のラベル付きサンプルを用いた偽アカウントの検出において,81%の精度を達成し,この分野に寄与する。
これは、sganがマイノリティクラスを扱い、偽アカウント検出でビッグデータの課題に対処する強力なツールになる可能性を示しています。
関連論文リスト
- Conditional Semi-Supervised Data Augmentation for Spam Message Detection with Low Resource Data [0.0]
本研究では,データの可用性に欠けるスパム検出モデルに対して,条件付き半教師付きデータ拡張を提案する。
トレーニングデータを拡張するために、ラベルのないデータをデータ拡張に活用する。
潜在変数は、最終分類器の入力としてラベル付きおよびラベルなしのデータから得ることができる。
論文 参考訳(メタデータ) (2024-07-06T07:51:24Z) - Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。
実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文 参考訳(メタデータ) (2024-06-05T20:19:09Z) - Empowering HWNs with Efficient Data Labeling: A Clustered Federated
Semi-Supervised Learning Approach [2.046985601687158]
CFL(Clustered Federated Multitask Learning)は,統計的課題を克服するための効果的な戦略として注目されている。
本稿では,より現実的なHWNシナリオ用に設計された新しいフレームワークであるClustered Federated Semi-Supervised Learning (CFSL)を紹介する。
その結果,ラベル付きデータとラベル付きデータの比率が異なる場合,CFSLはテスト精度,ラベル付け精度,ラベル付け遅延などの重要な指標を著しく改善することがわかった。
論文 参考訳(メタデータ) (2024-01-19T11:47:49Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Semi-supervised binary classification with latent distance learning [0.0]
そこで本稿では,ランダムなk対クロス距離学習機構を持つラベルを用いて,二項分類問題を解くための新しい学習表現を提案する。
ラベルが少なく、データ拡張技術がないため、提案手法は最先端の半教師あり自己教師あり学習法より優れていた。
論文 参考訳(メタデータ) (2022-11-28T09:05:26Z) - Is margin all you need? An extensive empirical study of active learning
on tabular data [66.18464006872345]
我々は,OpenML-CC18ベンチマークを用いて,69の実世界のデータセット上での各種能動学習アルゴリズムの性能を解析した。
意外なことに、古典的なマージンサンプリング技術は、現在の最先端技術を含む、他のすべてのものよりも優れている。
論文 参考訳(メタデータ) (2022-10-07T21:18:24Z) - Collaborative Intelligence Orchestration: Inconsistency-Based Fusion of
Semi-Supervised Learning and Active Learning [60.26659373318915]
アクティブラーニング(AL)と半教師付きラーニング(SSL)は2つの効果があるが、しばしば孤立している。
本稿では、SSL-ALの潜在的な優位性をさらに調査するために、革新的な一貫性に基づく仮想aDvErialアルゴリズムを提案する。
2つの実世界のケーススタディは、提案したデータサンプリングアルゴリズムの適用と展開の実践的な産業価値を可視化する。
論文 参考訳(メタデータ) (2022-06-07T13:28:43Z) - Scale-Equivalent Distillation for Semi-Supervised Object Detection [57.59525453301374]
近年のSemi-Supervised Object Detection (SS-OD) 法は主に自己学習に基づいており、教師モデルにより、ラベルなしデータを監視信号としてハードな擬似ラベルを生成する。
実験結果から,これらの手法が直面する課題を分析した。
本稿では,大規模オブジェクトサイズの分散とクラス不均衡に頑健な簡易かつ効果的なエンド・ツー・エンド知識蒸留フレームワークであるSED(Scale-Equivalent Distillation)を提案する。
論文 参考訳(メタデータ) (2022-03-23T07:33:37Z) - Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。
具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。