論文の概要: Bengali Fake Reviews: A Benchmark Dataset and Detection System
- arxiv url: http://arxiv.org/abs/2308.01987v2
- Date: Mon, 4 Dec 2023 17:54:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 22:44:20.319461
- Title: Bengali Fake Reviews: A Benchmark Dataset and Detection System
- Title(参考訳): Bengali Fakeレビュー:ベンチマークデータセットと検出システム
- Authors: G. M. Shahariar, Md. Tanvir Rouf Shawon, Faisal Muhammad Shah,
Mohammad Shafiul Alam and Md. Shahriar Mahbub
- Abstract要約: 本稿では,Bengali Fake Review Detection (BFRD)データセットを紹介する。
データセットは7710件のノンフェイクと1339件の偽の食品関連レビューで構成されている。
レビューで非ベンガル語を変換するために、英語の単語を対応するベンガル語の意味に翻訳するユニークなパイプラインが提案されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The proliferation of fake reviews on various online platforms has created a
major concern for both consumers and businesses. Such reviews can deceive
customers and cause damage to the reputation of products or services, making it
crucial to identify them. Although the detection of fake reviews has been
extensively studied in English language, detecting fake reviews in non-English
languages such as Bengali is still a relatively unexplored research area. This
paper introduces the Bengali Fake Review Detection (BFRD) dataset, the first
publicly available dataset for identifying fake reviews in Bengali. The dataset
consists of 7710 non-fake and 1339 fake food-related reviews collected from
social media posts. To convert non-Bengali words in a review, a unique pipeline
has been proposed that translates English words to their corresponding Bengali
meaning and also back transliterates Romanized Bengali to Bengali. We have
conducted rigorous experimentation using multiple deep learning and pre-trained
transformer language models to develop a reliable detection system. Finally, we
propose a weighted ensemble model that combines four pre-trained transformers:
BanglaBERT, BanglaBERT Base, BanglaBERT Large, and BanglaBERT Generator .
According to the experiment results, the proposed ensemble model obtained a
weighted F1-score of 0.9843 on 13390 reviews, including 1339 actual fake
reviews and 5356 augmented fake reviews generated with the nlpaug library. The
remaining 6695 reviews were randomly selected from the 7710 non-fake instances.
The model achieved a 0.9558 weighted F1-score when the fake reviews were
augmented using the bnaug library.
- Abstract(参考訳): さまざまなオンラインプラットフォームにおける偽レビューの拡散は、消費者と企業双方にとって大きな懸念を巻き起こしている。
このようなレビューは顧客を欺き、製品やサービスの評判を損なう可能性があるため、顧客を特定することが不可欠である。
偽レビューの検出は英語で広く研究されているが、ベンガル語のような英語以外の言語で偽レビューを検出することは、比較的未調査の分野である。
本稿では,Bengali Fake Review Detection (BFRD)データセットを紹介する。
データセットは7710件のノンフェイクと1339件の偽の食品関連レビューで構成されている。
レビューで非ベンガル語を変換するために、英語の単語を対応するベンガル語の意味に翻訳するユニークなパイプラインが提案されている。
複数のディープラーニングと事前学習型トランスフォーマー言語モデルを用いて厳密な実験を行い、信頼性の高い検出システムを開発した。
最後に,BanglaBERT,BanglaBERT Base,BanglaBERT Large,BanglaBERT Generatorの4つの事前学習変圧器を組み合わせた重み付きアンサンブルモデルを提案する。
実験結果によると,nlpaugライブラリで生成された1339件の偽レビューと5356件の偽レビューを含む,13390件のレビューに対して,重み付けされたf1-score 0.9843が得られた。
残りの6695のレビューは7710の非fakeインスタンスからランダムに選択された。
このモデルは、偽レビューがbnaugライブラリを使用して拡張されたときに、0.9558の重み付きF1スコアを達成した。
関連論文リスト
- Generating Enhanced Negatives for Training Language-Based Object Detectors [86.1914216335631]
我々は、現代の生成モデルに組み込まれた膨大な知識を活用して、元のデータにより関連性のある負を自動で構築することを提案する。
具体的には、大言語モデルを用いて、負のテキスト記述を生成するとともに、テキスト間拡散モデルを用いて、対応する負の画像を生成する。
実験により, 生成した負データとの関連性を確認し, 言語ベースの検出器での使用により, 2つの複雑なベンチマークの性能が向上した。
論文 参考訳(メタデータ) (2023-12-29T23:04:00Z) - Tackling Fake News in Bengali: Unraveling the Impact of Summarization vs. Augmentation on Pre-trained Language Models [0.0]
ベンガル語で偽ニュースを分類するための4つの異なるアプローチからなる方法論を提案する。
弊社のアプローチは、英語ニュース記事の翻訳や、偽ニュース記事の欠陥を抑えるための強化技術の利用を含む。
ベンガル語偽ニュース検出における要約と拡張の有効性を示す。
論文 参考訳(メタデータ) (2023-07-13T14:50:55Z) - Bengali Fake Review Detection using Semi-supervised Generative
Adversarial Networks [0.0]
本稿では,半教師付きGAN(Generative Adversarial Networks)による事前学習言語モデルの微調整の可能性について検討する。
提案した半教師付きGAN-LMアーキテクチャは,ベンガルの偽レビューを分類する上で有効な解であることを示す。
論文 参考訳(メタデータ) (2023-04-05T20:40:09Z) - Combat AI With AI: Counteract Machine-Generated Fake Restaurant Reviews
on Social Media [77.34726150561087]
我々は、高品質なYelpレビューを活用して、OpenAI GPTレビュー作成者から偽レビューを生成することを提案する。
このモデルを適用して、非エリートレビューを予測し、複数の次元にまたがるパターンを識別する。
ソーシャルメディアプラットフォームは、マシン生成の偽レビューによって継続的に挑戦されていることを示す。
論文 参考訳(メタデータ) (2023-02-10T19:40:10Z) - Online Fake Review Detection Using Supervised Machine Learning And BERT
Model [0.0]
テキストから単語の埋め込みを抽出するためにBERT(Bidirectional Representation from Transformers)モデルを提案する(レビュー)。
その結果、SVM分類器は精度で他より優れており、f1スコアは精度87.81%であることがわかった。
論文 参考訳(メタデータ) (2023-01-09T09:40:56Z) - Training Language Models with Natural Language Feedback [51.36137482891037]
3段階学習アルゴリズムを用いてモデル出力の言語フィードバックから学習する。
合成実験において、まず言語モデルがフィードバックを正確に組み込んで改良を行うかどうかを評価する。
人間の手書きフィードバックのサンプルは100程度しかなく, 学習アルゴリズムはGPT-3モデルを微調整し, ほぼ人間レベルの要約を行う。
論文 参考訳(メタデータ) (2022-04-29T15:06:58Z) - Fake or Genuine? Contextualised Text Representation for Fake Review
Detection [0.4724825031148411]
本稿では, トランスフォーマーアーキテクチャを用いて, 偽レビューのシーケンス中に隠されたパターンを発見し, 正確に検出する新しいアンサンブルモデルを提案する。
半現実的なベンチマークデータセットを用いた実験結果から,提案モデルが最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-12-29T00:54:47Z) - Factorization of Fact-Checks for Low Resource Indian Languages [44.94080515860928]
FactDRILは、インドの地域言語のための最初の大規模多言語ファクトチェックデータセットです。
本データセットは英語9,058サンプル,ヒンディー語5,155サンプルからなり,残りの8,222サンプルは様々な地域言語に分布する。
このデータセットは貴重なリソースであり、低リソース言語での偽ニュースの拡散と戦う出発点となると期待しています。
論文 参考訳(メタデータ) (2021-02-23T16:47:41Z) - Bangla Text Dataset and Exploratory Analysis for Online Harassment
Detection [0.0]
この記事でアクセス可能になったデータは、有名人、政府高官、そしてFacebook上のアスリートによる公開投稿の人々のコメントから収集され、マークされている。
データセットは、コメントがいじめの表現であるか否かを区別するマシンの開発を目的としてコンパイルされる。
論文 参考訳(メタデータ) (2021-02-04T08:35:18Z) - The Multilingual Amazon Reviews Corpus [46.84980931183582]
我々は、多言語テキスト分類のための大規模なAmazonレビューコレクションであるMultilingual Amazon Reviews Corpus (MARC)を提示する。
MARCは2015年から2019年にかけて収集された英語、日本語、ドイツ語、フランス語、スペイン語、中国語のレビューを含んでいる。
コーパスは5つの星のレーティングでバランスが取れており、それぞれのレーティングは各言語のレビューの20%を占めている。
論文 参考訳(メタデータ) (2020-10-06T09:34:01Z) - Unsupervised Opinion Summarization with Noising and Denoising [85.49169453434554]
ユーザレビューのコーパスから合成データセットを作成し、レビューをサンプリングし、要約のふりをして、ノイズのあるバージョンを生成します。
テスト時に、モデルは本物のレビューを受け入れ、健全な意見を含む要約を生成し、合意に達しないものをノイズとして扱います。
論文 参考訳(メタデータ) (2020-04-21T16:54:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。