論文の概要: Leveraging GPT-2 for Classifying Spam Reviews with Limited Labeled Data
via Adversarial Training
- arxiv url: http://arxiv.org/abs/2012.13400v1
- Date: Thu, 24 Dec 2020 18:59:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-25 08:18:55.690046
- Title: Leveraging GPT-2 for Classifying Spam Reviews with Limited Labeled Data
via Adversarial Training
- Title(参考訳): gpt-2を用いたadversarial trainingによる限定ラベルデータによるスパムレビューの分類
- Authors: Athirai A. Irissappane, Hanfei Yu, Yankun Shen, Anubha Agrawal, Gray
Stanton
- Abstract要約: 本稿では,限定されたラベル付きデータと大量のラベル付きデータで意見スパムを分類する,敵対的トレーニング機構を提案する。
TripAdvisorとYelpZipデータセットの実験では、ラベル付きデータが制限された場合の精度で、提案されたモデルは最先端技術よりも少なくとも7%優れていた。
- 参考スコア(独自算出の注目度): 1.8899300124593648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online reviews are a vital source of information when purchasing a service or
a product. Opinion spammers manipulate these reviews, deliberately altering the
overall perception of the service. Though there exists a corpus of online
reviews, only a few have been labeled as spam or non-spam, making it difficult
to train spam detection models. We propose an adversarial training mechanism
leveraging the capabilities of Generative Pre-Training 2 (GPT-2) for
classifying opinion spam with limited labeled data and a large set of unlabeled
data. Experiments on TripAdvisor and YelpZip datasets show that the proposed
model outperforms state-of-the-art techniques by at least 7% in terms of
accuracy when labeled data is limited. The proposed model can also generate
synthetic spam/non-spam reviews with reasonable perplexity, thereby, providing
additional labeled data during training.
- Abstract(参考訳): オンラインレビューは、サービスや製品を購入する際に重要な情報源である。
オピニオンスパマーはこれらのレビューを操作し、サービス全体の認識を意図的に変える。
オンラインレビューのコーパスは存在するが、スパムやノンスパムとラベル付けされているものはほとんどなく、スパム検出モデルのトレーニングが難しい。
本稿では,限定ラベルデータと大量のラベル付きデータで意見スパムを分類するための生成前訓練2(gpt-2)の能力を活用した,敵対的訓練機構を提案する。
TripAdvisorとYelpZipデータセットの実験では、ラベル付きデータが制限された場合の精度で、提案されたモデルは最先端技術よりも少なくとも7%優れていた。
提案モデルでは,適切なパープレキシティを有する合成スパム/非スパムレビューも生成でき,トレーニング中に付加ラベルデータを提供できる。
関連論文リスト
- Online detection and infographic explanation of spam reviews with data drift adaptation [4.278181795494584]
本稿では,データドリフト適応を取り入れた,スパムレビューの特定と説明のためのオンラインソリューションを提案する。
i)インクリメンタルプロファイリング、(ii)データドリフトの検出と適応、および(iii)機械学習を用いたスパムレビューの識別を統合する。
その結果,87%のスパムF測定値が得られた。
論文 参考訳(メタデータ) (2024-06-21T10:35:46Z) - Metadata Integration for Spam Reviews Detection on Vietnamese E-commerce Websites [0.0]
レビューのメタデータを含むViSpamReviews v2データセットを紹介します。
本稿では,テキスト属性と分類属性を同時に分類モデルに統合する手法を提案する。
論文 参考訳(メタデータ) (2024-05-22T02:19:13Z) - Soft Curriculum for Learning Conditional GANs with Noisy-Labeled and
Uncurated Unlabeled Data [70.25049762295193]
本稿では,トレーニング中にノイズラベル付きおよび未処理データを受け入れる条件付き画像生成フレームワークを提案する。
本稿では,ラベルのないデータに新たなラベルを割り当てながら,逆行訓練にインスタンスワイドを割り当てるソフトカリキュラム学習を提案する。
実験により,本手法は,定量および定性性能の両面において,既存の半教師付き・ラベル付きロバストな手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-17T08:31:59Z) - Stop Uploading Test Data in Plain Text: Practical Strategies for
Mitigating Data Contamination by Evaluation Benchmarks [70.39633252935445]
データ汚染は、大規模な自動クロールコーパスで事前訓練されたモデルの台頭によって、普及し、課題となっている。
クローズドモデルの場合、トレーニングデータはトレードシークレットになり、オープンモデルであっても汚染を検出するのは簡単ではない。
1)公開するテストデータを公開鍵で暗号化し,デリバティブ配信を許可する,(2)クローズドAPI保持者からの要求トレーニング排他的コントロールを許可する,(2)評価を拒否してテストデータを保護する,(3)インターネット上のソリューションで表示されるデータを避け,インターネット由来のWebページコンテキストを解放する,という3つの方法を提案する。
論文 参考訳(メタデータ) (2023-05-17T12:23:38Z) - SoftMatch: Addressing the Quantity-Quality Trade-off in Semi-supervised
Learning [101.86916775218403]
本稿では, サンプル重み付けを統一した定式化により, 一般的な擬似ラベル法を再検討する。
トレーニング中の擬似ラベルの量と質を両立させることでトレードオフを克服するSoftMatchを提案する。
実験では、画像、テキスト、不均衡な分類など、さまざまなベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-26T03:53:25Z) - Spam Review Detection Using Deep Learning [0.0]
多くのオンラインサイトでは、レビューを投稿するオプションがあり、従って偽の有料レビューや非合法レビューのスコープを作成することができる。
これらの批判されたレビューは、一般大衆を誤解させ、レビューを信じるかどうかを混乱させる可能性がある。
スパムレビュー検出の問題を解決するために、著名な機械学習技術が導入されている。
論文 参考訳(メタデータ) (2022-11-03T09:41:48Z) - Adversarial Training with Complementary Labels: On the Benefit of
Gradually Informative Attacks [119.38992029332883]
不完全な監督を伴う敵の訓練は重要であるが、注意は限られている。
我々は、徐々に情報的攻撃を用いた新しい学習戦略を提案する。
提案手法の有効性を,ベンチマークデータセットを用いて実証する実験を行った。
論文 参考訳(メタデータ) (2022-11-01T04:26:45Z) - Opinion Spam Detection: A New Approach Using Machine Learning and
Network-Based Algorithms [2.062593640149623]
オンラインレビューは、消費者が製品やサービスを評価し比較する上で重要な役割を果たす。
偽レビュー(オピニオンスパム)が普及し、顧客やサービスプロバイダに悪影響を及ぼしている。
本稿では,機械学習とメッセージパッシングアルゴリズムを組み合わせて,レビュアーをスパマーや良心として分類する手法を提案する。
論文 参考訳(メタデータ) (2022-05-26T15:27:46Z) - Disentangling Sampling and Labeling Bias for Learning in Large-Output
Spaces [64.23172847182109]
異なる負のサンプリングスキームが支配的ラベルと稀なラベルで暗黙的にトレードオフパフォーマンスを示す。
すべてのラベルのサブセットで作業することで生じるサンプリングバイアスと、ラベルの不均衡に起因するデータ固有のラベルバイアスの両方に明示的に対処する統一された手段を提供する。
論文 参考訳(メタデータ) (2021-05-12T15:40:13Z) - A Robust Opinion Spam Detection Method Against Malicious Attackers in
Social Media [0.0]
これは、スマートスパマーがシステムに検出され、ブロックされることを恐れることなく、スパムの生成を継続できる方法で、システムを騙すことができる方法である。
頑健なグラフに基づくスパム検出手法を提案する。
論文 参考訳(メタデータ) (2020-08-19T19:54:44Z) - Semi-Automatic Data Annotation guided by Feature Space Projection [117.9296191012968]
本稿では,適切な特徴空間投影と半教師付きラベル推定に基づく半自動データアノテーション手法を提案する。
MNISTデータセットとヒト腸内寄生虫の胎児不純物の有無による画像を用いて本手法の有効性を検証した。
この結果から,人間と機械の相補的能力を組み合わせた視覚分析ツールの付加価値が,より効果的な機械学習に有効であることが示唆された。
論文 参考訳(メタデータ) (2020-07-27T17:03:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。