論文の概要: BanglishRev: A Large-Scale Bangla-English and Code-mixed Dataset of Product Reviews in E-Commerce
- arxiv url: http://arxiv.org/abs/2412.13161v2
- Date: Wed, 18 Dec 2024 05:51:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 13:25:29.308878
- Title: BanglishRev: A Large-Scale Bangla-English and Code-mixed Dataset of Product Reviews in E-Commerce
- Title(参考訳): BanglishRev:Eコマースにおける大規模バングラデシュとコード混成の製品レビューデータセット
- Authors: Mohammad Nazmush Shamael, Sabila Nawshin, Swakkhar Shatabda, Salekul Islam,
- Abstract要約: 本研究は、英語のベンガル語で書かれたレビューと、英語のアルファベットで書かれたバングリッシュ・ベンガル語を混ぜたレビューのために、これまでで最大のeコマース製品レビューデータセットを提示する。
このデータセットは、ベンガル人を対象にしたオンライン電子商取引プラットフォームで販売されている128万の製品から収集された320万のレーティング情報から144万件のレビューが作成されている。
レビューには、レビュー者からのレーティング、レビューが投稿された日、購入日、いいね!の件数、嫌悪感、売り手からの反応、レビューに関連する画像などを含む、レビューごとに関連するメタデータの広範囲が含まれている。
- 参考スコア(独自算出の注目度): 2.5874041837241304
- License:
- Abstract: This work presents the BanglishRev Dataset, the largest e-commerce product review dataset to date for reviews written in Bengali, English, a mixture of both and Banglish, Bengali words written with English alphabets. The dataset comprises of 1.74 million written reviews from 3.2 million ratings information collected from a total of 128k products being sold in online e-commerce platforms targeting the Bengali population. It includes an extensive array of related metadata for each of the reviews including the rating given by the reviewer, date the review was posted and date of purchase, number of likes, dislikes, response from the seller, images associated with the review etc. With sentiment analysis being the most prominent usage of review datasets, experimentation with a binary sentiment analysis model with the review rating serving as an indicator of positive or negative sentiment was conducted to evaluate the effectiveness of the large amount of data presented in BanglishRev for sentiment analysis tasks. A BanglishBERT model is trained on the data from BanglishRev with reviews being considered labeled positive if the rating is greater than 3 and negative if the rating is less than or equal to 3. The model is evaluated by being testing against a previously published manually annotated dataset for e-commerce reviews written in a mixture of Bangla, English and Banglish. The experimental model achieved an exceptional accuracy of 94\% and F1 score of 0.94, demonstrating the dataset's efficacy for sentiment analysis. Some of the intriguing patterns and observations seen within the dataset and future research directions where the dataset can be utilized is also discussed and explored. The dataset can be accessed through https://huggingface.co/datasets/BanglishRev/bangla-english-and-code-mixed-ecommerce-review-dataset.
- Abstract(参考訳): BanglishRev Datasetは、英語のベンガル語で書かれたレビューのための、これまでで最大のeコマース製品レビューデータセットだ。
このデータセットは、ベンガル人を対象にしたオンライン電子商取引プラットフォームで販売されている128万の製品から収集された320万のレーティング情報から144万件のレビューが作成されている。
レビューには、レビュー者からのレーティング、レビューが投稿された日、購入日、いいね!の件数、嫌悪感、売り手からの反応、レビューに関連する画像などを含む、レビューごとに関連するメタデータの広範囲が含まれている。
感情分析がレビューデータセットの最も顕著な使用例であるとともに、肯定的あるいは否定的な感情の指標となるレビューレーティングを伴うバイナリ感情分析モデルを用いて、感情分析タスクにBanglishRevで提示された大量のデータの有効性を評価する実験を行った。
BanglishBERTモデルは、BanglishRevのデータに基づいてトレーニングされ、評価が3より大きい場合、評価が3より小さい場合、負の場合、評価が3より大きい場合、肯定的にラベル付けされる。
このモデルは、バングラ、イングリッシュ、バングリッシュの混在したEコマースレビューのために、以前に発表された手動で注釈付きデータセットに対してテストすることで評価される。
実験モデルは94\%、F1スコアが0.94の例外的な精度を達成し、データセットが感情分析に有効であることを実証した。
また、データセット内で見られる興味深いパターンや観察や、データセットが利用できる将来の研究方向についても論じ、検討した。
データセットはhttps://huggingface.co/datasets/BanglishRev/bangla-english-and-code-mixed-eCommerce-review-datasetを通じてアクセスすることができる。
関連論文リスト
- CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI
Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。
データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。
大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文 参考訳(メタデータ) (2023-06-28T14:14:44Z) - Product Information Extraction using ChatGPT [69.12244027050454]
本稿では,製品記述から属性/値対を抽出するChatGPTの可能性について検討する。
以上の結果から,ChatGPTは事前学習した言語モデルに類似した性能を達成できるが,微調整を行うにはトレーニングデータや計算処理がはるかに少ないことが示唆された。
論文 参考訳(メタデータ) (2023-06-23T09:30:01Z) - BanglaBook: A Large-scale Bangla Dataset for Sentiment Analysis from
Book Reviews [1.869097450593631]
本稿では,バングラ書評の大規模データセットについて,肯定,否定,中立の3つのカテゴリに分類される158,065のサンプルからなる。
我々は、SVM、LSTM、Bangla-BERTなどのベースラインを確立するために、さまざまな機械学習モデルを使用します。
この結果から,手作業で作成する機能に依存したモデルよりも,事前訓練したモデルに対して,かなりの性能上の利点が示された。
論文 参考訳(メタデータ) (2023-05-11T06:27:38Z) - Evaluating the Effectiveness of Pre-trained Language Models in
Predicting the Helpfulness of Online Product Reviews [0.21485350418225244]
オンライン製品レビューの有用性を予測するため,RoBERTaとXLM-R言語モデルの比較を行った。
実験にはAmazonレビューデータセットを使用します。
論文 参考訳(メタデータ) (2023-02-19T18:22:59Z) - Towards Personalized Review Summarization by Modeling Historical Reviews
from Customer and Product Separately [59.61932899841944]
レビュー要約(review summarization)は、Eコマースのウェブサイトで製品レビューのメインの考え方を要約することを目的とした、簡単ではないタスクである。
Heterogeneous Historical Review aware Review Summarization Model (HHRRS)を提案する。
我々は、レビュー感情分類と要約を共同で行うマルチタスクフレームワークを採用している。
論文 参考訳(メタデータ) (2023-01-27T12:32:55Z) - FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation [64.9546787488337]
本稿では、Few-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。
このデータセットは、英語からポルトガル語と中国語の2つの地域変種へのプロの翻訳で構成されている。
論文 参考訳(メタデータ) (2022-10-01T05:02:04Z) - Deep Analysis of Visual Product Reviews [3.120478415450056]
これまで研究者らは、言語フィードバックの分析に取り組んできたが、ここでは、欠落しているかもしれない言語レビューの助けは受けていない。
本稿では,製品分類において上位モデルが関与する階層的アーキテクチャを提案し,顧客が提供する製品画像からレビュースコアを予測するために下位モデルが注目する。
提案された階層アーキテクチャは、シングルレベルの最高のアーキテクチャよりも57.48%の性能向上を達成した。
論文 参考訳(メタデータ) (2022-07-19T18:10:43Z) - Efficient Few-Shot Fine-Tuning for Opinion Summarization [83.76460801568092]
抽象的な要約モデルは、典型的には大量のジェネリックテキストで事前訓練され、数万から数十万の注釈付きサンプルで微調整される。
アダプタをベースとした数ショット法では,ドメイン内の知識を容易に保存できることを示す。
この自己教師型アダプタの事前トレーニングにより,AmazonとYelpのデータセット上の2.0および1.3ROUGE-Lポイントの要約品質が向上することを示す。
論文 参考訳(メタデータ) (2022-05-04T16:38:37Z) - I Wish I Would Have Loved This One, But I Didn't -- A Multilingual
Dataset for Counterfactual Detection in Product Reviews [19.533526638034047]
製品レビューにおいて, 反事実検出(cfd)の問題を考える。
この目的のために、Amazon製品レビューから多言語CFDデータセットをアノテートします。
データセットは、複数の言語で偽造物を含むため、ユニークである。
論文 参考訳(メタデータ) (2021-04-14T14:38:36Z) - BAN-ABSA: An Aspect-Based Sentiment Analysis dataset for Bengali and
it's baseline evaluation [0.8793721044482612]
本稿では,高品質なベンガル語データセットであるBAN-ABSAについて述べる。
データセットは、ベンガルの有名なニュースポータルから収集された9,009のユニークなコメントから、2,619のポジティブ、4,721のネガティブ、1,669の中立データサンプルで構成されている。
論文 参考訳(メタデータ) (2020-12-01T06:09:44Z) - The Multilingual Amazon Reviews Corpus [46.84980931183582]
我々は、多言語テキスト分類のための大規模なAmazonレビューコレクションであるMultilingual Amazon Reviews Corpus (MARC)を提示する。
MARCは2015年から2019年にかけて収集された英語、日本語、ドイツ語、フランス語、スペイン語、中国語のレビューを含んでいる。
コーパスは5つの星のレーティングでバランスが取れており、それぞれのレーティングは各言語のレビューの20%を占めている。
論文 参考訳(メタデータ) (2020-10-06T09:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。