論文の概要: Data Augmentation for Fake Reviews Detection in Multiple Languages and Multiple Domains
- arxiv url: http://arxiv.org/abs/2504.06917v1
- Date: Wed, 09 Apr 2025 14:23:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:06:43.925311
- Title: Data Augmentation for Fake Reviews Detection in Multiple Languages and Multiple Domains
- Title(参考訳): 複数の言語と複数のドメインにおけるフェイクレビュー検出のためのデータ拡張
- Authors: Ming Liu, Massimo Poesio,
- Abstract要約: 大規模な言語モデルを使用してデータセットを生成し、偽レビュー検出をトレーニングします。
我々のアプローチは、異なるドメイン(書籍レビュー、レストランレビュー、ホテルレビュー)と異なる言語(英語と中国語)で偽レビューを生成するために用いられました。
偽レビュー検出モデルの精度は、DeRev TESTで0.3ポイント、Amazon TESTで10.9ポイント、Yelp TESTで8.3%、DianPing TESTで7.2ポイント向上できる。
- 参考スコア(独自算出の注目度): 10.064399146272228
- License:
- Abstract: With the growth of the Internet, buying habits have changed, and customers have become more dependent on the online opinions of other customers to guide their purchases. Identifying fake reviews thus became an important area for Natural Language Processing (NLP) research. However, developing high-performance NLP models depends on the availability of large amounts of training data, which are often not available for low-resource languages or domains. In this research, we used large language models to generate datasets to train fake review detectors. Our approach was used to generate fake reviews in different domains (book reviews, restaurant reviews, and hotel reviews) and different languages (English and Chinese). Our results demonstrate that our data augmentation techniques result in improved performance at fake review detection for all domains and languages. The accuracy of our fake review detection model can be improved by 0.3 percentage points on DeRev TEST, 10.9 percentage points on Amazon TEST, 8.3 percentage points on Yelp TEST and 7.2 percentage points on DianPing TEST using the augmented datasets.
- Abstract(参考訳): インターネットの普及に伴い、購入習慣が変化し、顧客は購入をガイドするために他の顧客のオンライン意見により依存するようになった。
そのため、偽レビューの特定は自然言語処理(NLP)研究の重要な領域となった。
しかし、高性能なNLPモデルの開発は、低リソース言語やドメインでは利用できない大量のトレーニングデータの可用性に依存している。
本研究では,大規模な言語モデルを用いてデータセットを生成し,偽レビュー検出装置の訓練を行った。
我々のアプローチは、異なるドメイン(書籍レビュー、レストランレビュー、ホテルレビュー)と異なる言語(英語と中国語)で偽レビューを生成するために使われました。
以上の結果から,データ拡張手法により,すべてのドメインや言語に対する偽レビュー検出の性能が向上することが示唆された。
偽レビュー検出モデルの精度は、DeRev TESTで0.3ポイント、Amazon TESTで10.9ポイント、Yelp TESTで8.3%、DianPing TESTで7.2ポイント向上できる。
関連論文リスト
- Enhanced Review Detection and Recognition: A Platform-Agnostic Approach with Application to Online Commerce [0.46040036610482665]
本稿では,検出・抽出のための機械学習手法を提案する。
トレーニングデータに含まれていないウェブサイトにまたがって使用するために一般化されていることを実証する。
この方法は、ソースに関係なく、レビューの自動検出と評価のためにアプリケーションを駆動することを約束する。
論文 参考訳(メタデータ) (2024-05-09T00:32:22Z) - MAiDE-up: Multilingual Deception Detection of GPT-generated Hotel Reviews [29.174548645439756]
私たちは、AIが生成した偽のホテルレビュー1万件からなるMAiDE-upデータセットを公開しています。
我々は、AIの偽ホテルレビューと実際のホテルレビューを比較するために、広範な言語学的分析を行う。
これらの次元は、AIが生成した偽レビューをいかに検出できるかに影響を及ぼす。
論文 参考訳(メタデータ) (2024-04-19T15:08:06Z) - AiGen-FoodReview: A Multimodal Dataset of Machine-Generated Restaurant
Reviews and Images on Social Media [57.70351255180495]
AiGen-FoodReviewは、20,144のレストランレビューイメージペアからなるデータセットである。
FLAVAで99.80%のマルチモーダル精度を達成し,一様・多モーダル検出モデルについて検討する。
この論文は、データセットをオープンソース化し、偽レビュー検出装置を公開し、非モーダルかつマルチモーダルな偽レビュー検出タスクでの使用を推奨し、合成データと真正データにおける言語的特徴と視覚的特徴を評価することで貢献する。
論文 参考訳(メタデータ) (2024-01-16T20:57:36Z) - UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。
我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - Generating Benchmarks for Factuality Evaluation of Language Models [61.69950787311278]
FACTOR: Factual Assessment via Corpus Transformation, a scalable approach for LM factuality。
FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。
その結果, (i) ベンチマークスコアはモデルサイズに応じて増加し, LMが検索によって拡張されたときに向上する; (ii) ベンチマークスコアとパープレキシティは必ずしもモデルランキングに一致しない; (iii) パープレキシティとベンチマークスコアが一致しない場合, 後者はオープンエンド世代における事実性を反映する。
論文 参考訳(メタデータ) (2023-07-13T17:14:38Z) - Bengali Fake Review Detection using Semi-supervised Generative
Adversarial Networks [0.0]
本稿では,半教師付きGAN(Generative Adversarial Networks)による事前学習言語モデルの微調整の可能性について検討する。
提案した半教師付きGAN-LMアーキテクチャは,ベンガルの偽レビューを分類する上で有効な解であることを示す。
論文 参考訳(メタデータ) (2023-04-05T20:40:09Z) - Evaluating the Effectiveness of Pre-trained Language Models in
Predicting the Helpfulness of Online Product Reviews [0.21485350418225244]
オンライン製品レビューの有用性を予測するため,RoBERTaとXLM-R言語モデルの比較を行った。
実験にはAmazonレビューデータセットを使用します。
論文 参考訳(メタデータ) (2023-02-19T18:22:59Z) - Online Fake Review Detection Using Supervised Machine Learning And BERT
Model [0.0]
テキストから単語の埋め込みを抽出するためにBERT(Bidirectional Representation from Transformers)モデルを提案する(レビュー)。
その結果、SVM分類器は精度で他より優れており、f1スコアは精度87.81%であることがわかった。
論文 参考訳(メタデータ) (2023-01-09T09:40:56Z) - Retrieval-based Disentangled Representation Learning with Natural
Language Supervision [61.75109410513864]
本稿では,VDR(Vocabulary Disentangled Retrieval)を提案する。
提案手法では,両エンコーダモデルを用いて語彙空間におけるデータと自然言語の両方を表現する。
論文 参考訳(メタデータ) (2022-12-15T10:20:42Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z) - ScoreGAN: A Fraud Review Detector based on Multi Task Learning of
Regulated GAN with Data Augmentation [50.779498955162644]
生成・検出プロセスにおけるレビューテキストとレビューレーティングスコアの両方を利用した不正レビュー検出のためのScoreGANを提案する。
その結果,提案フレームワークは,既存の最先端フレームワークであるFakeGANをAPの7%,YelpとTripAdvisorのデータセットで5%上回る性能を示した。
論文 参考訳(メタデータ) (2020-06-11T16:15:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。