論文の概要: Sentiment and Emotion Classification of Indonesian E-Commerce Reviews via Multi-Task BiLSTM and AutoML Benchmarking
- arxiv url: http://arxiv.org/abs/2604.24720v1
- Date: Mon, 27 Apr 2026 17:30:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:08.272739
- Title: Sentiment and Emotion Classification of Indonesian E-Commerce Reviews via Multi-Task BiLSTM and AutoML Benchmarking
- Title(参考訳): Multi-Task BiLSTMとAutoMLベンチマークによるインドネシアのEコマースレビューの知覚と感情分類
- Authors: Hermawan Manurung, Ibrahim Al-Kahfi, Ahmad Rizqi, Martin Clinton Tosima Manullang,
- Abstract要約: 本稿では, PRDECT-IDデータセットに適用した2トラック分類パイプラインについて述べる。
PRDECT-IDデータセットには、インドネシアの29のeコマースカテゴリから5,400の製品レビューが含まれている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Indonesian marketplace reviews mix standard vocabulary with slang, regional loanwords, numeric shorthands, and emoji, making lexicon-based sentiment tools unreliable in practice. This paper describes a two-track classification pipeline applied to the PRDECT-ID dataset, which contains 5,400 product reviews from 29 Indonesian e-commerce categories, each labeled for binary sentiment (Positive/Negative) and five-class emotion (Happy, Sad, Fear, Love, Anger). The first track applies TF-IDF vectorization with a PyCaret AutoML sweep across standard classifiers. The second track is a PyTorch Bidirectional Long Short-Term Memory (BiLSTM) network with a shared encoder and two task-specific output heads. A preprocessing module applies 14 sequential cleaning steps, including a 140-entry slang dictionary assembled from marketplace corpora. Four configurations are benchmarked: BiLSTM Baseline, BiLSTM Improved, BiLSTM Large, and TextCNN. Training uses class-weighted cross-entropy loss, ReduceLROnPlateau scheduling, and early stopping. Both tracks are deployed as Gradio applications on Hugging Face Spaces. Source code is publicly available at https://github.com/ikii-sd/pba2026-crazyrichteam.
- Abstract(参考訳): インドネシアの市場レビューでは、標準的な語彙とスラング、地域の借用語、数字のショートハンド、絵文字が混在しており、レキシコンベースの感情ツールを実践的に信頼できないものにしている。
PRDECT-IDデータセットに適用された2トラックの分類パイプラインについて述べる。このパイプラインには、インドネシアの29のeコマースカテゴリから5,400の製品レビューが含まれており、それぞれにバイナリ感情(肯定的/否定的)と5クラスの感情(幸福、悲しみ、恐怖、愛、怒り)をラベル付けしている。
最初のトラックでは、TF-IDFベクタライゼーションが適用され、PyCaret AutoMLが標準分類器にまたがっている。
2番目のトラックは、共有エンコーダと2つのタスク固有の出力ヘッドを備えたPyTorch Bidirectional Long Short-Term Memory (BiLSTM)ネットワークである。
前処理モジュールは、市場コーパスから組み立てられた140エントリスラング辞書を含む14のシーケンシャルなクリーニングステップを適用する。
BiLSTM Baseline、BiLSTM Improved、BiLSTM Large、TextCNNの4つの設定がベンチマークされている。
トレーニングでは、クラスウェイトなクロスエントロピー損失、ReduceeLROnPlateauスケジューリング、早期停止が使用されている。
両方のトラックは、Hugging Face Spaces上のGradioアプリケーションとしてデプロイされる。
ソースコードはhttps://github.com/ikii-sd/pba2026-crazyrichteamで公開されている。
関連論文リスト
- JNLP at SemEval-2025 Task 11: Cross-Lingual Multi-Label Emotion Detection Using Generative Models [3.1605924602008373]
本研究では,SemEval-2025 Task 11: Bridging the Gap in Text-Based Emotion Detectionについて述べる。
本研究は,(1)トラックA:マルチラベル感情検出,(2)トラックB:感情強度の2つのサブトラックに焦点を当てた。
入力を対応する感情ラベルに直接マッピングするベースメソッドと、入力テキストと各感情カテゴリの関係を個別にモデル化するペアワイズ手法の2つの方法を提案する。
論文 参考訳(メタデータ) (2025-05-19T15:24:53Z) - SelfSeg: A Self-supervised Sub-word Segmentation Method for Neural
Machine Translation [51.881877192924414]
サブワードセグメンテーションはニューラルマシン翻訳(NMT)に不可欠な前処理ステップである
本稿では,自己教師型ニューラルネットワークサブワードセグメンテーション手法であるSelfSegを紹介する。
SelfSegはトレーニング/デコードがはるかに高速で、並列コーパスの代わりに単言語辞書のみを必要とする。
論文 参考訳(メタデータ) (2023-07-31T04:38:47Z) - Description-Enhanced Label Embedding Contrastive Learning for Text
Classification [65.01077813330559]
モデル学習プロセスにおける自己監督型学習(SSL)と新しい自己監督型関係関係(R2)分類タスクの設計
テキスト分類とR2分類を最適化対象として扱うテキスト分類のための関係学習ネットワーク(R2-Net)の関係について検討する。
ラベルセマンティックラーニングのためのマルチアスペクト記述を得るためのWordNetからの外部知識。
論文 参考訳(メタデータ) (2023-06-15T02:19:34Z) - Transfer-Free Data-Efficient Multilingual Slot Labeling [82.02076369811402]
スロットラベリングはタスク指向対話(ToD)システムの中核的なコンポーネントである。
固有データ不足の問題を緩和するために、多言語ToDに関する現在の研究は、十分な英語の注釈付きデータが常に利用可能であると仮定している。
標準的な多言語文エンコーダを効果的なスロットラベリングに変換する2段階のスロットラベリング手法(TWOSL)を提案する。
論文 参考訳(メタデータ) (2023-05-22T22:47:32Z) - Machine and Deep Learning Methods with Manual and Automatic Labelling
for News Classification in Bangla Language [0.36832029288386137]
本稿では,バングラ語におけるニュース分類のための手動ラベリングと自動ラベリングを用いたいくつかの機械学習手法を提案する。
MLアルゴリズムは、ロジスティック回帰(LR)、グラディエントDescent(SGD)、サポートベクトルマシン(SVM)、ランダムフォレスト(RF)、K-Nearest Neighbour(KNN)である。
本研究では,LDA(Latent Dirichlet Allocation)を用いた自動ラベリング手法を開発し,単一ラベルおよび多ラベル記事分類法の性能について検討する。
論文 参考訳(メタデータ) (2022-10-19T21:53:49Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - HPCC-YNU at SemEval-2020 Task 9: A Bilingual Vector Gating Mechanism for
Sentiment Analysis of Code-Mixed Text [10.057804086733576]
本稿では,バイリンガルなベクトルゲーティング機構をバイリンガルなリソースに利用してタスクを完了させるシステムを提案する。
私たちはパングリッシュで5位、ヒングリッシュで19位を獲得しました。
論文 参考訳(メタデータ) (2020-10-10T08:02:15Z) - Investigating Bi-LSTM and CRF with POS Tag Embedding for Indonesian
Named Entity Tagger [0.0]
NEタグの最先端である長短期記憶(LSTM)をトポロジーとして用いている。
POSタグの埋め込みを追加入力として使用すると、インドネシアのNEタグガーのパフォーマンスが向上することがわかった。
論文 参考訳(メタデータ) (2020-09-11T23:54:31Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - IIT Gandhinagar at SemEval-2020 Task 9: Code-Mixed Sentiment
Classification Using Candidate Sentence Generation and Selection [1.2301855531996841]
コードミキシングは、非標準の書き込みスタイルのためにテキストの感情を分析することの難しさを増す。
本稿では,Bi-LSTMに基づくニューラル分類器上での文生成と選択に基づく提案手法を提案する。
提案手法は,Bi-LSTMに基づくニューラル分類器と比較して,システム性能の向上を示す。
論文 参考訳(メタデータ) (2020-06-25T14:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。