論文の概要: Hybrid TF--IDF Logistic Regression and MLP Neural Baseline for Indonesian Three-Class Sentiment Analysis on Social Media Text
- arxiv url: http://arxiv.org/abs/2605.07793v1
- Date: Fri, 08 May 2026 14:31:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.114412
- Title: Hybrid TF--IDF Logistic Regression and MLP Neural Baseline for Indonesian Three-Class Sentiment Analysis on Social Media Text
- Title(参考訳): ハイブリッドTF-IDFロジスティック回帰とMLPニューラルベースラインによるインドネシアのソーシャルメディアテキストの3クラス感性分析
- Authors: Allya Nurul Islami Pasha, Eka Fidiya Putri, Luluk Muthoharoh, Ardika Satria, Martin C. T. Manullang,
- Abstract要約: 本稿では,インドネシアのソーシャルメディアテキストを対象としたコンパクトな3クラス感情分析研究について述べる。
タスクは、きめ細かい感情データセットから得られる正、負、中立の出力で定式化される。
比較のために、この研究は、同じハイブリッド特徴表現上の2層多層パーセプトロン(MLP)を用いた神経ベースラインも含んでいる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a compact three-class sentiment analysis study for Indonesian social media text. The task is formulated with positive, negative, and neutral outputs derived from a fine-grained emotion dataset. The proposed practical baseline combines TF--IDF text features, three lightweight numeric metadata features, and a balanced multinomial Logistic Regression classifier. For comparison, the study also includes a neural baseline using a two-layer multilayer perceptron (MLP) over the same hybrid feature representation. The dataset originally contains 732 rows and 191 fine-grained emotion labels; after cleaning, deduplication, and label remapping, 707 samples remain with an imbalanced distribution of 459 positive, 188 negative, and 60 neutral instances. Experimental results show that the Logistic Regression deployment model reaches 0.8028 accuracy, 0.8003 weighted F1, and 0.7276 macro F1, while project documentation reports a higher-accuracy but non-production MLP baseline. These findings indicate that careful preprocessing, interpretable feature engineering, and class balancing remain competitive for small Indonesian sentiment datasets, whereas the neural baseline is better treated as a comparative experiment than as the default deployment model.
- Abstract(参考訳): 本稿では,インドネシアのソーシャルメディアテキストを対象としたコンパクトな3クラス感情分析研究について述べる。
タスクは、きめ細かい感情データセットから得られる正、負、中立の出力で定式化される。
提案する実用ベースラインは、TF-IDFテキスト機能、軽量な3つのメタデータ機能、バランスの取れた多項ロジスティック回帰分類器を組み合わせたものである。
比較のために、この研究は、同じハイブリッド特徴表現上の2層多層パーセプトロン(MLP)を用いた神経ベースラインも含んでいる。
このデータセットは元々732行と191のきめ細かい感情ラベルを含んでおり、クリーニング、重複、ラベルのリマッピングの後、707のサンプルは459の陽性、188の陰性、60の中立なインスタンスで不均衡な分布を維持している。
実験の結果,ロジスティック回帰展開モデルでは精度が0.8028,重み付きF1が0.8003,マクロF1が0.7276に達した。
これらの結果は、注意深い前処理、解釈可能な機能エンジニアリング、クラスバランスが、小さなインドネシアの感情データセットに対して競争力を維持していることを示しているが、ニューラルベースラインはデフォルトのデプロイメントモデルよりも比較実験として扱われている。
関連論文リスト
- A Hybrid Method for Low-Resource Named Entity Recognition [0.0]
本研究では,ベトナムのNERにおけるルールベース処理とディープラーニングモデルを統合するハイブリッド型ニューロシンボリックフレームワークを提案する。
LLM(Large Language Models)を活用したスケーラブルなデータ拡張戦略が導入された。
本手法の有効性は, 物流, 野生生物, 医療を含む5つの特定領域データセットで評価した。
論文 参考訳(メタデータ) (2026-05-06T04:36:01Z) - Benchmarking Logistic Regression, SVM, Naive Bayes, and IndoBERT Fine-Tuning for Sentiment Analysis on Indonesian Product Reviews [0.0]
本稿では,3段階の感情分析タスクにおいて,トランスフォーマーに基づくディープラーニングモデルに対して従来の機械学習アプローチをベンチマークする。
IndoBERTモデルをコンテキストシーケンス分類のために微調整した。
対話型Gradio Webアプリケーションとして最終的な感情分類モデルをデプロイすることで,パイプラインの実用性を示す。
論文 参考訳(メタデータ) (2026-05-05T07:20:42Z) - Benchmarking Logistic Regression, SVM, and LightGBM Against BiLSTM with Attention for Sentiment Analysis on Indonesian Product Reviews [0.0]
本稿では、PyCaret AutoMLフレームワークによる機械学習(ML)アプローチと、双方向長短期記憶(BiLSTM)アーキテクチャに基づくディープラーニング(DL)アプローチを比較し、インドネシア製品レビューのバイナリ感情分類のためのアテンションメカニズムと比較する。
ロジスティック回帰は97.26%、F1スコア97.26%で最高のML性能を達成した。
論文 参考訳(メタデータ) (2026-04-28T10:00:42Z) - NCL-BU at SemEval-2026 Task 3: Fine-tuning XLM-RoBERTa for Multilingual Dimensional Sentiment Regression [5.8096845806519335]
本稿では,トラックA-サブタスク1(次元アスペクト知覚回帰)のために開発されたシステムについて述べる。
テキスト中の各アスペクトの[1, 9]範囲で、実値のVAスコアを予測することを目的としている。
論文 参考訳(メタデータ) (2026-04-10T03:38:53Z) - Fine-Grained Emotion Detection on GoEmotions: Experimental Comparison of Classical Machine Learning, BiLSTM, and Transformer Models [4.417564179511245]
微粒な感情認識はラベル重複とクラス不均衡による多ラベルNLP課題である。
TF-IDFをベースとしたロジスティック回帰システム,注目度の高いBiLSTM,マルチラベル分類のためのBERTモデル,の3つのモデルファミリをベンチマークした。
我々は,ロジスティック回帰が0.51マイクロF1の最高値に達するのに対して,BERTは公式論文の報告結果を上回る総合的なバランスを達成していることを観察した。
論文 参考訳(メタデータ) (2026-01-26T05:29:27Z) - MobileLLM-R1: Exploring the Limits of Sub-Billion Language Model Reasoners with Open Training Recipes [60.57770396565211]
強い推論能力は、はるかに少ないデータで実現可能であることを示す。
MobileLLM-R50MのAIMEスコアは15.5であり、OLMo-2-1.48Bは0.6、SmolLM-2-1.7Bは0.3である。
論文 参考訳(メタデータ) (2025-09-29T15:43:59Z) - Prismatic Synthesis: Gradient-based Data Diversification Boosts Generalization in LLM Reasoning [77.120955854093]
我々は,データ多様性が言語モデルにおける一般化の強力な予測因子であることを示す。
モデル誘起勾配のエントロピーを通して多様性を定量化する計量であるG-Vendiを導入する。
多様な合成データを生成するためのフレームワークであるPrismatic Synthesisを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:05:10Z) - Explicit Tradeoffs between Adversarial and Natural Distributional
Robustness [48.44639585732391]
実際、モデルは信頼性を確保するために両方のタイプの堅牢さを享受する必要があります。
本研究では, 対角線と自然分布の強靭性の間には, 明らかなトレードオフが存在することを示す。
論文 参考訳(メタデータ) (2022-09-15T19:58:01Z) - Normalise for Fairness: A Simple Normalisation Technique for Fairness in Regression Machine Learning Problems [46.93320580613236]
回帰問題に対する正規化(FaiReg)に基づく単純かつ効果的な手法を提案する。
データバランシングと敵対的トレーニングという,公正性のための2つの標準的な手法と比較する。
その結果、データバランスよりも不公平さの影響を低減できる優れた性能を示した。
論文 参考訳(メタデータ) (2022-02-02T12:26:25Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。