論文の概要: Benchmarking LightGBM and BiLSTM for Sentiment Analysis on Indonesian E-Commerce Reviews
- arxiv url: http://arxiv.org/abs/2605.01322v1
- Date: Sat, 02 May 2026 08:38:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.704408
- Title: Benchmarking LightGBM and BiLSTM for Sentiment Analysis on Indonesian E-Commerce Reviews
- Title(参考訳): インドネシアのEコマースレビューにおける感性分析のためのLightGBMとBiLSTMのベンチマーク
- Authors: Lidia Natasyah Marpaung, Vania Claresta, Iqfina Haula Halika, Luluk Muthoharoh, Ardika Satria, Martin Clinton Tosima Manullang,
- Abstract要約: 本評価は,Hugging Faceをベースとしたインドネシアのeコマースレビューデータセットを用いて,感情分析タスクで実施する。
BiLSTMアーキテクチャは、インドネシアのレビューテキストのシーケンシャルなコンテキストをキャプチャする能力が高く、この特定の分類タスクにおいて優れたモデルとなっている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study presents a comparative analysis between two primary approaches in Natural Language Processing (NLP): Machine Learning (ML) utilizing the PyCaret AutoML framework, and Deep Learning (DL). The evaluation is conducted on a sentiment analysis task using an Indonesian e-commerce review dataset sourced from Hugging Face. The dataset, consisting of 15,000 samples, is partitioned into training, validation, and testing sets. The ML experiments compare LightGBM, Logistic Regression, and Support Vector Machine (SVM) algorithms, whereas the DL experiment implements a Bidirectional Long Short-Term Memory (BiLSTM) architecture. The experimental results demonstrate that the BiLSTM model outperforms all ML models, achieving an accuracy of 98.87\% and an F1-Score of 98.87\%. Meanwhile, LightGBM emerges as the best-performing ML model with an accuracy of 98.23\% in a highly efficient training time. This research proves that the BiLSTM architecture is highly capable of capturing the sequential context of Indonesian review texts, making it the superior model for this specific classification task.
- Abstract(参考訳): 本研究では,PyCaret AutoMLフレームワークを用いた機械学習(ML)と深層学習(DL)という,自然言語処理(NLP)における2つの主要なアプローチの比較分析を行った。
本評価は,Hugging Faceをベースとしたインドネシアのeコマースレビューデータセットを用いて,感情分析タスクで実施する。
15,000のサンプルからなるデータセットは、トレーニング、検証、テストセットに分割される。
ML実験はLightGBM、ロジスティック回帰、サポートベクトルマシン(SVM)のアルゴリズムを比較し、DL実験は双方向長短期メモリ(BiLSTM)アーキテクチャを実装している。
実験の結果、BiLSTMモデルは全てのMLモデルより優れており、精度は98.87\%、F1スコアは98.87\%であることがわかった。
一方、LightGBMは、高い効率のトレーニング時間において、98.23\%の精度で最高のパフォーマンスのMLモデルとして出現する。
本研究は,BiLSTMアーキテクチャがインドネシアのレビューテキストの逐次的コンテキストを捉える能力が高いことを証明した。
関連論文リスト
- Benchmarking Logistic Regression, SVM, and LightGBM Against BiLSTM with Attention for Sentiment Analysis on Indonesian Product Reviews [0.0]
本稿では、PyCaret AutoMLフレームワークによる機械学習(ML)アプローチと、双方向長短期記憶(BiLSTM)アーキテクチャに基づくディープラーニング(DL)アプローチを比較し、インドネシア製品レビューのバイナリ感情分類のためのアテンションメカニズムと比較する。
ロジスティック回帰は97.26%、F1スコア97.26%で最高のML性能を達成した。
論文 参考訳(メタデータ) (2026-04-28T10:00:42Z) - AI Generated Text Detection [0.0]
本稿では,従来の機械学習モデルとトランスフォーマーベースアーキテクチャの両方を含む,AIテキスト検出手法の評価を行う。
我々は、HC3とDAIGT v2という2つのデータセットを使用して、統一されたベンチマークを構築し、情報漏洩を防止するためにトピックベースのデータ分割を適用する。
その結果、文脈モデリングは語彙的特徴よりもはるかに優れていることが示され、話題記憶の緩和の重要性が強調された。
論文 参考訳(メタデータ) (2026-01-07T11:18:10Z) - A Comparative Analysis of Recurrent and Attention Architectures for Isolated Sign Language Recognition [0.0]
本研究では,アゼルバイジャンの手話データセット上で,ConvLSTMとVanilla Transformerの2つの代表的なモデルを実装し,評価する。
その結果,注目に基づくVanilla Transformerは,Top-1とTop-5の精度で連続したConvLSTMより一貫して優れていた。
論文 参考訳(メタデータ) (2025-11-17T08:28:35Z) - Automated Analysis of Learning Outcomes and Exam Questions Based on Bloom's Taxonomy [0.0]
本稿では,ブルームの分類に基づく試験質問と学習結果の自動分類について検討する。
6つの認知カテゴリをラベル付けした600文の小さなデータセットを、従来の機械学習(ML)モデルを用いて処理した。
論文 参考訳(メタデータ) (2025-11-14T02:31:12Z) - NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constraints [100.02131897927484]
本稿では,Multimodal Large Language Models(MLLM)のエンドツーエンドなネイティブトレーニングに焦点を当てる。
そこで我々は,NaViLと呼ばれるネイティブMLLMと,シンプルで費用対効果の高いレシピを組み合わせて提案する。
14のマルチモーダルベンチマークによる実験結果から,既存のMLLMに対するNaViLの競合性能が確認された。
論文 参考訳(メタデータ) (2025-10-09T17:59:37Z) - MLLM-Selector: Necessity and Diversity-driven High-Value Data Selection for Enhanced Visual Instruction Tuning [69.7347209018861]
視覚的インストラクションのチューニングに有用なデータを自動的に識別するMLLM-Selectorを提案する。
モデル性能を向上させるために,VITデータプールの各サンプルの必要なスコアを算出し,サンプルのピボットを同定する。
以上の結果から,データ選択における必要条件と多様性の混合の重要性が指摘され,MLLMセレクタの創出につながった。
論文 参考訳(メタデータ) (2025-03-26T12:42:37Z) - VecLSTM: Trajectory Data Processing and Management for Activity Recognition through LSTM Vectorization and Database Integration [1.1701842638497677]
VecLSTMは、LSTMベースのニューラルネットワークの性能と効率を高める新しいフレームワークである。
VecLSTMはベクトル化層を導入し、最適化された数学的演算を利用して入力シーケンスをより効率的に処理する。
論文 参考訳(メタデータ) (2024-09-28T06:22:44Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。