論文の概要: Leveraging GPT-2 for Classifying Spam Reviews with Limited Labeled Data
via Adversarial Training
- arxiv url: http://arxiv.org/abs/2012.13400v1
- Date: Thu, 24 Dec 2020 18:59:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-25 08:18:55.690046
- Title: Leveraging GPT-2 for Classifying Spam Reviews with Limited Labeled Data
via Adversarial Training
- Title(参考訳): gpt-2を用いたadversarial trainingによる限定ラベルデータによるスパムレビューの分類
- Authors: Athirai A. Irissappane, Hanfei Yu, Yankun Shen, Anubha Agrawal, Gray
Stanton
- Abstract要約: 本稿では,限定されたラベル付きデータと大量のラベル付きデータで意見スパムを分類する,敵対的トレーニング機構を提案する。
TripAdvisorとYelpZipデータセットの実験では、ラベル付きデータが制限された場合の精度で、提案されたモデルは最先端技術よりも少なくとも7%優れていた。
- 参考スコア(独自算出の注目度): 1.8899300124593648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online reviews are a vital source of information when purchasing a service or
a product. Opinion spammers manipulate these reviews, deliberately altering the
overall perception of the service. Though there exists a corpus of online
reviews, only a few have been labeled as spam or non-spam, making it difficult
to train spam detection models. We propose an adversarial training mechanism
leveraging the capabilities of Generative Pre-Training 2 (GPT-2) for
classifying opinion spam with limited labeled data and a large set of unlabeled
data. Experiments on TripAdvisor and YelpZip datasets show that the proposed
model outperforms state-of-the-art techniques by at least 7% in terms of
accuracy when labeled data is limited. The proposed model can also generate
synthetic spam/non-spam reviews with reasonable perplexity, thereby, providing
additional labeled data during training.
- Abstract(参考訳): オンラインレビューは、サービスや製品を購入する際に重要な情報源である。
オピニオンスパマーはこれらのレビューを操作し、サービス全体の認識を意図的に変える。
オンラインレビューのコーパスは存在するが、スパムやノンスパムとラベル付けされているものはほとんどなく、スパム検出モデルのトレーニングが難しい。
本稿では,限定ラベルデータと大量のラベル付きデータで意見スパムを分類するための生成前訓練2(gpt-2)の能力を活用した,敵対的訓練機構を提案する。
TripAdvisorとYelpZipデータセットの実験では、ラベル付きデータが制限された場合の精度で、提案されたモデルは最先端技術よりも少なくとも7%優れていた。
提案モデルでは,適切なパープレキシティを有する合成スパム/非スパムレビューも生成でき,トレーニング中に付加ラベルデータを提供できる。
関連論文リスト
- Opinion Spam Detection: A New Approach Using Machine Learning and
Network-Based Algorithms [2.062593640149623]
オンラインレビューは、消費者が製品やサービスを評価し比較する上で重要な役割を果たす。
偽レビュー(オピニオンスパム)が普及し、顧客やサービスプロバイダに悪影響を及ぼしている。
本稿では,機械学習とメッセージパッシングアルゴリズムを組み合わせて,レビュアーをスパマーや良心として分類する手法を提案する。
論文 参考訳(メタデータ) (2022-05-26T15:27:46Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - Yes-Yes-Yes: Donation-based Peer Reviewing Data Collection for ACL
Rolling Review and Beyond [58.71736531356398]
本稿では、ピアレビューデータについて詳細な議論を行い、ピアレビューデータ収集のための倫理的・法的デシダータの概要を述べるとともに、最初の継続的な寄付ベースのデータ収集ワークフローを提案する。
本稿では、ACL Rolling Reviewにおいて、このワークフローの現在進行中の実装について報告し、新たに収集したデータから得られた最初の洞察を提供する。
論文 参考訳(メタデータ) (2022-01-27T11:02:43Z) - CaSP: Class-agnostic Semi-Supervised Pretraining for Detection and
Segmentation [60.28924281991539]
本稿では,タスク固有性バランスを向上するために,クラス非依存型半教師付き事前学習(CaSP)フレームワークを提案する。
我々は3.6Mの未ラベルデータを用いて、ImageNetで規定されたオブジェクト検出のベースラインよりも4.7%の顕著なパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2021-12-09T14:54:59Z) - A Survey on Semi-Supervised Learning for Delayed Partially Labelled Data
Streams [10.370629574634092]
本調査は, 半教師付き環境で, 不正なデータを利用する手法に特に注意を払っている。
完全教師付き手法と半教師付き手法の両方に影響を及ぼす遅延ラベル問題について議論する。
論文 参考訳(メタデータ) (2021-06-16T23:14:20Z) - WSSOD: A New Pipeline for Weakly- and Semi-Supervised Object Detection [75.80075054706079]
弱機能および半教師付きオブジェクト検出フレームワーク(WSSOD)を提案する。
エージェント検出器は、まず関節データセット上でトレーニングされ、弱注釈画像上で擬似境界ボックスを予測するために使用される。
提案フレームワークはPASCAL-VOC と MSCOCO のベンチマークで顕著な性能を示し,完全教師付き環境で得られたものと同等の性能を達成している。
論文 参考訳(メタデータ) (2021-05-21T11:58:50Z) - Disentangling Sampling and Labeling Bias for Learning in Large-Output
Spaces [64.23172847182109]
異なる負のサンプリングスキームが支配的ラベルと稀なラベルで暗黙的にトレードオフパフォーマンスを示す。
すべてのラベルのサブセットで作業することで生じるサンプリングバイアスと、ラベルの不均衡に起因するデータ固有のラベルバイアスの両方に明示的に対処する統一された手段を提供する。
論文 参考訳(メタデータ) (2021-05-12T15:40:13Z) - Self-Tuning for Data-Efficient Deep Learning [75.34320911480008]
セルフチューニングは、データ効率のよいディープラーニングを可能にする新しいアプローチである。
ラベル付きおよびラベルなしデータの探索と事前訓練されたモデルの転送を統一する。
SSLとTLの5つのタスクをシャープなマージンで上回ります。
論文 参考訳(メタデータ) (2021-02-25T14:56:19Z) - OpinionRank: Extracting Ground Truth Labels from Unreliable Expert
Opinions with Graph-Based Spectral Ranking [2.1930130356902207]
クラウドソーシングは、分散ラベルコレクションを実行するための、ポピュラーで安価で効率的なデータマイニングソリューションとして登場した。
我々は、クラウドソースアノテーションを信頼できるラベルに統合するための、モデルフリーで解釈可能なグラフベースのスペクトルアルゴリズムであるOpinionRankを提案する。
実験の結果,より高パラメータ化アルゴリズムと比較した場合,OpinionRankが好適に動作することがわかった。
論文 参考訳(メタデータ) (2021-02-11T08:12:44Z) - Improving Opinion Spam Detection by Cumulative Relative Frequency
Distribution [0.9176056742068814]
オンラインレビューにおける意見スパムの検出には様々なアプローチが提案されている。
我々は意見スパムの分類に有効な一連の機能を再設計した。
分布特性を用いることで分類器の性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-12-27T10:23:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。