論文の概要: Benchmarking Logistic Regression, SVM, and LightGBM Against BiLSTM with Attention for Sentiment Analysis on Indonesian Product Reviews
- arxiv url: http://arxiv.org/abs/2604.25452v1
- Date: Tue, 28 Apr 2026 10:00:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.808347
- Title: Benchmarking Logistic Regression, SVM, and LightGBM Against BiLSTM with Attention for Sentiment Analysis on Indonesian Product Reviews
- Title(参考訳): BiLSTMに対するロジスティック回帰、SVM、LightGBMのベンチマークとインドネシア製品レビューの感性分析への留意
- Authors: Razin Hafid Hamdi, Ivana Margareth Hutabarat, Hanna Gresia Sinaga, Luluk Muthoharoh, Ardika Satria, Martin C. T. Manullang,
- Abstract要約: 本稿では、PyCaret AutoMLフレームワークによる機械学習(ML)アプローチと、双方向長短期記憶(BiLSTM)アーキテクチャに基づくディープラーニング(DL)アプローチを比較し、インドネシア製品レビューのバイナリ感情分類のためのアテンションメカニズムと比較する。
ロジスティック回帰は97.26%、F1スコア97.26%で最高のML性能を達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sentiment analysis of product reviews on e-commerce platforms plays a critical role in automatically understanding customer satisfaction and providing actionable insights for sellers seeking to improve product quality. This paper presents a comprehensive benchmarking study comparing a Machine Learning (ML) approach via the PyCaret AutoML framework against a Deep Learning (DL) approach based on a Bidirectional Long Short-Term Memory (BiLSTM) architecture with an Attention mechanism for binary sentiment classification on Indonesian product reviews. The dataset comprises 19,728 samples balanced equally between positive and negative reviews. For the ML approach, three prominent algorithms were evaluated via 10-fold stratified cross-validation: Logistic Regression (LR), Support Vector Machine (SVM) with a linear kernel, and Light Gradient Boosting Machine (LightGBM). Logistic Regression achieved the best ML performance with an accuracy of 97.26\% and an F1-score of 97.26\%. The BiLSTM with Attention model, evaluated on 3,946 held-out test samples, achieved an accuracy of 97.24\% and an F1-score of 97.24\%. These comparative results demonstrate that traditional ML algorithms with proper preprocessing and feature extraction can compete closely with, and even marginally outperform, more complex sequential DL architectures on high-dimensional datasets, while simultaneously offering greater computational efficiency.
- Abstract(参考訳): 電子商取引プラットフォームにおける商品レビューの感性分析は、顧客満足度を自動的に理解し、製品品質の向上を目指す販売者に実用的な洞察を提供する上で重要な役割を担っている。
本稿では、PyCaret AutoMLフレームワークによる機械学習(ML)アプローチと、双方向長短期記憶(BiLSTM)アーキテクチャに基づくディープラーニング(DL)アプローチと、インドネシアの製品レビューにおけるバイナリ感情分類のためのアテンションメカニズムを比較検討する。
データセットは、肯定的レビューと否定的レビューのバランスをとる19,728のサンプルで構成されている。
MLアプローチでは、ロジスティック回帰(LR)、線形カーネルを持つサポートベクトルマシン(SVM)、ライトグラディエントブースティングマシン(Light Gradient Boosting Machine、LightGBM)という10倍の階層化クロスバリデーションによって3つの顕著なアルゴリズムが評価された。
ロジスティック回帰は97.26\%、F1スコア97.26\%で最高のML性能を達成した。
BiLSTM with Attention modelは3,946個の保持試験サンプルで評価され、精度は97.24\%、F1スコアは97.24\%に達した。
これらの比較結果は、適切な前処理と特徴抽出を備えた従来のMLアルゴリズムが、高次元データセット上でより複雑な逐次DLアーキテクチャと密接に競合し、さらに性能が劣ることを示した。
関連論文リスト
- Natural Language Processing Models for Robust Document Categorization [0.0]
この研究は、AIを現実世界の自動化パイプラインに統合する際の重要な考慮事項である、分類精度と計算効率のバランスに重点を置いている。
Naive Bayes分類器、双方向LSTMネットワーク、微調整変圧器ベースBERTモデルの3つのモデルについて検討した。
BERTは99%を超える高い精度を達成したが、トレーニング時間を大幅に長くし、計算資源を大きくした。
BiLSTMモデルは強い妥協をもたらし、およそ98.56%の精度を達成し、適度なトレーニングコストを維持し、強い文脈理解を提供した。
論文 参考訳(メタデータ) (2026-02-23T20:33:22Z) - A Comparative Analysis of Recurrent and Attention Architectures for Isolated Sign Language Recognition [0.0]
本研究では,アゼルバイジャンの手話データセット上で,ConvLSTMとVanilla Transformerの2つの代表的なモデルを実装し,評価する。
その結果,注目に基づくVanilla Transformerは,Top-1とTop-5の精度で連続したConvLSTMより一貫して優れていた。
論文 参考訳(メタデータ) (2025-11-17T08:28:35Z) - Identifying Imaging Follow-Up in Radiology Reports: A Comparative Analysis of Traditional ML and LLM Approaches [8.864020712680976]
586例から6,393例の注釈付きコーパスを報告した。
我々は、ロジスティック回帰(LR)、サポートベクタマシン(SVM)、Longformer、そして完全に微調整されたLlama3-8B-インストラクトを含む従来の機械学習分類器を比較した。
GPT-4oとオープンソースのGPT-OSS-20Bを2つの構成で評価した。
論文 参考訳(メタデータ) (2025-11-14T20:55:44Z) - Automated Analysis of Learning Outcomes and Exam Questions Based on Bloom's Taxonomy [0.0]
本稿では,ブルームの分類に基づく試験質問と学習結果の自動分類について検討する。
6つの認知カテゴリをラベル付けした600文の小さなデータセットを、従来の機械学習(ML)モデルを用いて処理した。
論文 参考訳(メタデータ) (2025-11-14T02:31:12Z) - START: Self-taught Reasoner with Tools [51.38785489790888]
ツール統合長チェーン・オブ・シークレット(CoT)推論LSMであるSTART(Self-Taught Reasoner with Tools)を紹介する。
STARTは複雑な計算、自己チェック、多様な方法の探索、そして自己老化を行うことができる。
基礎となるQwQ-32Bを著しく上回り、最先端のオープンウェイトモデルR1-Distill-Qwen-32Bに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2025-03-06T17:11:51Z) - AutoLogi: Automated Generation of Logic Puzzles for Evaluating Reasoning Abilities of Large Language Models [86.83875864328984]
本稿では,オープンエンド論理パズルを自動合成する手法を提案し,それをバイリンガルベンチマークであるAutoLogiの開発に利用する。
提案手法は,プログラムベースの検証と制御可能な難易度を特徴とし,モデルの推論能力をよりよく区別する信頼性の高い評価を可能にする。
論文 参考訳(メタデータ) (2025-02-24T07:02:31Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Sparse Conditional Hidden Markov Model for Weakly Supervised Named
Entity Recognition [68.68300358332156]
雑音ラベリング機能を評価するために,スパース条件付き隠れマルコフモデル(Sparse-CHMM)を提案する。
Sparse-CHMMは、3段階のトレーニングパイプラインで教師なし学習によって最適化される。
5つの包括的なデータセットで平均F1スコアが3.01向上する。
論文 参考訳(メタデータ) (2022-05-27T20:47:30Z) - Robusta: Robust AutoML for Feature Selection via Reinforcement Learning [24.24652530951966]
強化学習(RL)に基づく初の堅牢なAutoMLフレームワークRobostaを提案します。
このフレームワークは,良性サンプルの競争精度を維持しつつ,モデルロバスト性を最大22%向上させることができることを示す。
論文 参考訳(メタデータ) (2021-01-15T03:12:29Z) - Revisiting LSTM Networks for Semi-Supervised Text Classification via
Mixed Objective Function [106.69643619725652]
我々は,単純なBiLSTMモデルであっても,クロスエントロピー損失でトレーニングした場合に,競争的な結果が得られるようなトレーニング戦略を開発する。
いくつかのベンチマークデータセット上で,テキスト分類タスクの最先端結果について報告する。
論文 参考訳(メタデータ) (2020-09-08T21:55:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。