論文の概要: Multi-level Product Category Prediction through Text Classification
- arxiv url: http://arxiv.org/abs/2403.01638v1
- Date: Sun, 3 Mar 2024 23:10:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 20:24:00.220174
- Title: Multi-level Product Category Prediction through Text Classification
- Title(参考訳): テキスト分類による多レベル製品カテゴリー予測
- Authors: Wesley Ferreira Maia, Angelo Carmignani, Gabriel Bortoli, Lucas
Maretti, David Luz, Daniel Camilo Fuentes Guzman, Marcos Jardel Henriques,
Francisco Louzada Neto
- Abstract要約: 本稿では、テキスト分類における高度な機械学習モデル、特にLSTMとBERTを適用し、小売業における複数のカテゴリを予測する。
この研究は、ブラジルの堅牢な小売データセットを用いて、商品を複数のカテゴリに分類する際の精度を大幅に向上させる、データ拡張技術と焦点損失関数の適用方法を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This article investigates applying advanced machine learning models,
specifically LSTM and BERT, for text classification to predict multiple
categories in the retail sector. The study demonstrates how applying data
augmentation techniques and the focal loss function can significantly enhance
accuracy in classifying products into multiple categories using a robust
Brazilian retail dataset. The LSTM model, enriched with Brazilian word
embedding, and BERT, known for its effectiveness in understanding complex
contexts, were adapted and optimized for this specific task. The results showed
that the BERT model, with an F1 Macro Score of up to $99\%$ for segments,
$96\%$ for categories and subcategories and $93\%$ for name products,
outperformed LSTM in more detailed categories. However, LSTM also achieved high
performance, especially after applying data augmentation and focal loss
techniques. These results underscore the effectiveness of NLP techniques in
retail and highlight the importance of the careful selection of modelling and
preprocessing strategies. This work contributes significantly to the field of
NLP in retail, providing valuable insights for future research and practical
applications.
- Abstract(参考訳): 本稿では、テキスト分類における高度な機械学習モデル、特にLSTMとBERTを適用し、小売業における複数のカテゴリを予測する。
本研究は,ブラジルのロバストなリテールデータセットを用いた製品分類において,データ拡張手法と焦点損失関数の適用により,製品分類精度が著しく向上することを示す。
ブラジル語の単語埋め込みに富んだLSTMモデルと、複雑な文脈を理解する上での有効性で知られるBERTが適応され、このタスクに最適化された。
その結果,F1マクロスコアが99 %,カテゴリとサブカテゴリが9,6 %,ネーム製品が9,3 %であったようなBERTモデルは,より詳細なカテゴリではLSTMよりも優れていた。
しかし、LSTMは特にデータ拡張と焦点損失技術を適用した後、高い性能を実現した。
これらの結果は,小売業におけるNLP技術の有効性を浮き彫りにし,モデリングおよび前処理戦略の慎重に選択することの重要性を強調した。
この研究は小売業におけるNLPの分野に大きく貢献し、将来の研究や実用化に貴重な洞察を与えている。
関連論文リスト
- Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Exploring Fine-grained Retail Product Discrimination with Zero-shot Object Classification Using Vision-Language Models [50.370043676415875]
スマートリテールアプリケーションでは、多数の製品とその頻繁なターンオーバーは信頼性の高いゼロショットオブジェクト分類方法を必要とする。
我々は28の異なる製品カテゴリからなるMIMEXデータセットを紹介した。
我々は、提案したMIMEXデータセット上で、最先端ビジョン言語モデル(VLM)のゼロショットオブジェクト分類性能をベンチマークする。
論文 参考訳(メタデータ) (2024-09-23T12:28:40Z) - A Small Claims Court for the NLP: Judging Legal Text Classification Strategies With Small Datasets [0.0]
本稿では,小ラベル付きデータセットと大量の未ラベルデータの使用を最適化するための最善の戦略について検討する。
我々は,ブラジルの検察官事務所に要求の記録を用いて,対象の1つに記述を割り当てる。
その結果, BERTとデータ拡張, 半教師付き学習戦略を併用したUnsupervised Data Augmentation (UDA) が得られた。
論文 参考訳(メタデータ) (2024-09-09T18:10:05Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Automating Customer Needs Analysis: A Comparative Study of Large Language Models in the Travel Industry [2.4244694855867275]
大規模言語モデル(LLM)は、大量のテキストデータから貴重な洞察を抽出するための強力なツールとして登場した。
本研究では,TripAdvisor 投稿から旅行客のニーズを抽出するための LLM の比較分析を行った。
特にMistral 7Bは,大規模クローズドモデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-04-27T18:28:10Z) - Attention is Not Always What You Need: Towards Efficient Classification
of Domain-Specific Text [1.1508304497344637]
階層構造に整理された数百のクラスを持つ大規模ITコーパスでは、階層構造における上位レベルのクラスの正確な分類が不可欠である。
ビジネスの世界では、高額なブラックボックスモデルよりも効率的で説明可能なMLモデルが好まれる。
PLMが広く使われているにもかかわらず、これらのモデルがドメイン固有のテキスト分類に使われている理由として、明確で明確な必要性が欠如している。
論文 参考訳(メタデータ) (2023-03-31T03:17:23Z) - Guiding Generative Language Models for Data Augmentation in Few-Shot
Text Classification [59.698811329287174]
我々は、GPT-2を用いて、分類性能を向上させるために、人工訓練インスタンスを生成する。
実験の結果,少数のラベルインスタンスでGPT-2を微調整すると,一貫した分類精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-11-17T12:10:03Z) - Text Classification for Predicting Multi-level Product Categories [0.0]
オンラインショッピングプラットフォームでは、製品の詳細な分類がユーザナビゲーションを促進する。
本研究では,食品の商品名分類に焦点をあてる。
論文 参考訳(メタデータ) (2021-09-02T17:00:05Z) - Multitask Learning for Class-Imbalanced Discourse Classification [74.41900374452472]
マルチタスクアプローチは,現在のベンチマークで7%のマイクロf1コアを改善できることを示す。
また,NLPにおける資源不足問題に対処するための追加手法の比較検討を行った。
論文 参考訳(メタデータ) (2021-01-02T07:13:41Z) - Revisiting LSTM Networks for Semi-Supervised Text Classification via
Mixed Objective Function [106.69643619725652]
我々は,単純なBiLSTMモデルであっても,クロスエントロピー損失でトレーニングした場合に,競争的な結果が得られるようなトレーニング戦略を開発する。
いくつかのベンチマークデータセット上で,テキスト分類タスクの最先端結果について報告する。
論文 参考訳(メタデータ) (2020-09-08T21:55:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。