論文の概要: Product Market Demand Analysis Using NLP in Banglish Text with Sentiment
Analysis and Named Entity Recognition
- arxiv url: http://arxiv.org/abs/2204.01827v1
- Date: Mon, 4 Apr 2022 20:21:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-06 13:39:18.030641
- Title: Product Market Demand Analysis Using NLP in Banglish Text with Sentiment
Analysis and Named Entity Recognition
- Title(参考訳): 感性分析と名前付きエンティティ認識を用いたバングリッシュテキストにおけるNLPを用いた製品市場需要分析
- Authors: Md Sabbir Hossain, Nishat Nayla, Annajiat Alim Rasel
- Abstract要約: ベンガル語話者は約2億2800万人。
消費者はBanglishのテキストでソーシャルメディア上でアイテムを購入し、評価しています。
人々はソーシャルメディアを使って、好みのスマートフォンブランドやモデルを見つけます。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Product market demand analysis plays a significant role for originating
business strategies due to its noticeable impact on the competitive business
field. Furthermore, there are roughly 228 million native Bengali speakers, the
majority of whom use Banglish text to interact with one another on social
media. Consumers are buying and evaluating items on social media with Banglish
text as social media emerges as an online marketplace for entrepreneurs. People
use social media to find preferred smartphone brands and models by sharing
their positive and bad experiences with them. For this reason, our goal is to
gather Banglish text data and use sentiment analysis and named entity
identification to assess Bangladeshi market demand for smartphones in order to
determine the most popular smartphones by gender. We scraped product related
data from social media with instant data scrapers and crawled data from
Wikipedia and other sites for product information with python web scrapers.
Using Python's Pandas and Seaborn libraries, the raw data is filtered using NLP
methods. To train our datasets for named entity recognition, we utilized
Spacey's custom NER model, Amazon Comprehend Custom NER. A tensorflow
sequential model was deployed with parameter tweaking for sentiment analysis.
Meanwhile, we used the Google Cloud Translation API to estimate the gender of
the reviewers using the BanglaLinga library. In this article, we use natural
language processing (NLP) approaches and several machine learning models to
identify the most in-demand items and services in the Bangladeshi market. Our
model has an accuracy of 87.99% in Spacy Custom Named Entity recognition,
95.51% in Amazon Comprehend Custom NER, and 87.02% in the Sequential model for
demand analysis. After Spacy's study, we were able to manage 80% of mistakes
related to misspelled words using a mix of Levenshtein distance and ratio
algorithms.
- Abstract(参考訳): 製品市場需要分析は、競争力のあるビジネス分野に顕著な影響を与えるため、ビジネス戦略の創出に重要な役割を果たす。
さらに、ベンガル語話者は約2億2800万人で、その大半はバングリッシュのテキストを使ってソーシャルメディア上で互いに対話している。
ソーシャルメディアが起業家のオンラインマーケットプレイスとして出現するにつれて、消費者はBanglishのテキストでソーシャルメディア上でアイテムを購入して評価している。
人々はソーシャルメディアを使って、ポジティブで悪い経験を共有して、好みのスマートフォンブランドやモデルを見つける。
このため、バングラデシュのテキストデータを収集し、感情分析を用いて、バングラデシュのスマートフォン市場需要を評価することで、ジェンダー別に最も人気のあるスマートフォンを決定することが目的である。
我々は,製品関連データをインスタントデータスクレイパでソーシャルメディアから抽出し,wikipediaなどのサイトからクロールしたデータをpython webスクレイパで生成した。
pythonのpandasとseabornライブラリを使用して、生データはnlpメソッドを使用してフィルタリングされる。
名前付きエンティティ認識のためにデータセットをトレーニングするために、SpaceyのカスタムNERモデルであるAmazon Comprehend Custom NERを使用しました。
感情分析のためのパラメータ調整を備えたtensorflowシーケンシャルモデルがデプロイされた。
一方、Google Cloud Translation APIを使用して、BanglaLingaライブラリを使用してレビュアーの性別を推定しました。
本稿では、自然言語処理(nlp)アプローチといくつかの機械学習モデルを用いて、バングラデシュ市場で最も需要の高いアイテムやサービスを特定する。
当社のモデルでは,Spaacy Custom Named Entity Recognitionの87.99%,Amazon Comprehend Custom NERの95.51%,需要分析のSequential Modelの87.02%が正確である。
spacyの研究の後、レベンシュテイン距離と比率のアルゴリズムを組み合わせることで、ミススペルされた単語に関連する誤りの80%を管理できた。
関連論文リスト
- A Probability--Quality Trade-off in Aligned Language Models and its Relation to Sampling Adaptors [50.046717886067555]
一致した言語モデルからコーパスをサンプリングする場合,文字列の平均報酬と平均ログ類似度との間にはトレードオフが存在することを示す。
我々は、この現象を形式的に処理し、サンプリングアダプタの選択が、どれだけの確率で報酬を交換できるかを選択できるかを実証する。
論文 参考訳(メタデータ) (2024-06-14T17:38:21Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。
我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - Constructing Colloquial Dataset for Persian Sentiment Analysis of Social
Microblogs [0.0]
本稿ではまず,ITRC-Opinionというユーザ意見データセットを協調的かつインソース的に構築する。
私たちのデータセットには、TwitterやInstagramといったソーシャルなマイクロブログから、6万の非公式で口語的なペルシア語のテキストが含まれています。
次に,畳み込みニューラルネットワーク(CNN)モデルに基づく新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-06-22T05:51:22Z) - BanglaBook: A Large-scale Bangla Dataset for Sentiment Analysis from
Book Reviews [1.869097450593631]
本稿では,バングラ書評の大規模データセットについて,肯定,否定,中立の3つのカテゴリに分類される158,065のサンプルからなる。
我々は、SVM、LSTM、Bangla-BERTなどのベースラインを確立するために、さまざまな機械学習モデルを使用します。
この結果から,手作業で作成する機能に依存したモデルよりも,事前訓練したモデルに対して,かなりの性能上の利点が示された。
論文 参考訳(メタデータ) (2023-05-11T06:27:38Z) - Evaluating Embedding APIs for Information Retrieval [51.24236853841468]
ドメインの一般化と多言語検索における既存のセマンティック埋め込みAPIの機能を評価する。
BM25の結果をAPIを使って再ランク付けすることは、予算に優しいアプローチであり、英語でもっとも効果的である。
非英語検索では、再ランク付けは結果を改善するが、BM25のハイブリッドモデルは高いコストで機能する。
論文 参考訳(メタデータ) (2023-05-10T16:40:52Z) - Embedding generation for text classification of Brazilian Portuguese
user reviews: from bag-of-words to transformers [0.0]
この研究は、古典的(バグ・オブ・ワード)から最先端(トランスフォーマーベース)NLPモデルまで含んでいる。
本研究の目的は,ブラジルポルトガル語におけるユーザレビューのバイナリ感情分類を対象とする埋め込みアプローチに関する総合的な実験的研究を提供することである。
論文 参考訳(メタデータ) (2022-12-01T15:24:19Z) - Study of Encoder-Decoder Architectures for Code-Mix Search Query
Translation [0.0]
私たちが受け取るクエリの多くはコードミックスであり、特にHinglishは英語(ラテン語)スクリプトで書かれた1つ以上のヒンディー語のクエリである。
本稿では,これらのクエリをユーザが検索できるように,コードミックスクエリ変換のためのトランスフォーマーベースのアプローチを提案する。
モデルは現在、アプリとウェブサイトで公開されており、数百万のクエリーを提供している。
論文 参考訳(メタデータ) (2022-08-07T12:59:50Z) - FBERT: A Neural Transformer for Identifying Offensive Content [67.12838911384024]
fBERTは、SOLIDで再訓練されたBERTモデルである。
複数の英文データセット上での攻撃的内容の同定におけるfBERTの性能を評価し、SOLIDからインスタンスを選択するためのしきい値をテストする。
fBERTモデルは、コミュニティで自由に利用できるようになる。
論文 参考訳(メタデータ) (2021-09-10T19:19:26Z) - Sentiment Classification in Bangla Textual Content: A Comparative Study [4.2394281761764]
本研究では,古典学習アルゴリズムと深層学習アルゴリズムの両方を用いて,公開されている感情ラベル付きデータセットと設計分類器について検討する。
以上の結果から,バングラではこれまで検討されていないトランスフォーマーモデルが,他のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2020-11-19T21:06:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。