論文の概要: A meta-analysis on the performance of machine-learning based language models for sentiment analysis
- arxiv url: http://arxiv.org/abs/2509.09728v1
- Date: Wed, 10 Sep 2025 10:05:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:07.860718
- Title: A meta-analysis on the performance of machine-learning based language models for sentiment analysis
- Title(参考訳): 感情分析のための機械学習に基づく言語モデルの性能に関するメタ分析
- Authors: Elena Rohde, Jonas Klingwort, Christian Borgs,
- Abstract要約: 本研究の目的は, 平均性能を推定し, 研究間の不均一性を評価し, 研究特性がモデル性能に与える影響を分析することである。
全体的な精度は広く使用されているが、クラス不均衡に対する感受性と感情クラスの数によってしばしば誤解を招く。
- 参考スコア(独自算出の注目度): 0.5243460995467893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a meta-analysis evaluating ML performance in sentiment analysis for Twitter data. The study aims to estimate the average performance, assess heterogeneity between and within studies, and analyze how study characteristics influence model performance. Using PRISMA guidelines, we searched academic databases and selected 195 trials from 20 studies with 12 study features. Overall accuracy, the most reported performance metric, was analyzed using double arcsine transformation and a three-level random effects model. The average overall accuracy of the AIC-optimized model was 0.80 [0.76, 0.84]. This paper provides two key insights: 1) Overall accuracy is widely used but often misleading due to its sensitivity to class imbalance and the number of sentiment classes, highlighting the need for normalization. 2) Standardized reporting of model performance, including reporting confusion matrices for independent test sets, is essential for reliable comparisons of ML classifiers across studies, which seems far from common practice.
- Abstract(参考訳): 本稿では,Twitterデータに対する感情分析においてMLの性能を評価するメタ分析手法を提案する。
本研究の目的は, 平均性能を推定し, 研究間の不均一性を評価し, 研究特性がモデル性能に与える影響を分析することである。
PRISMAガイドラインを用いて学術データベースを検索し,12つの研究特徴を持つ20研究から195の試行を選定した。
最も報告された性能指標である総合的精度は、二重アルキシン変換と3レベルランダム効果モデルを用いて分析した。
AIC最適化モデルの平均全体的な精度は0.80[0.76, 0.84]であった。
本稿は2つの重要な洞察を提供する。
1) 総合的精度は広く使用されているが, クラス不均衡に対する感受性や, 感情クラス数などにより誤認されることが多く, 正規化の必要性が浮き彫りになっている。
2)独立したテストセットに対する混乱行列の報告を含むモデル性能の標準化報告は,ML分類器の信頼性比較には不可欠である。
関連論文リスト
- Prismatic Synthesis: Gradient-based Data Diversification Boosts Generalization in LLM Reasoning [77.120955854093]
我々は,データ多様性が言語モデルにおける一般化の強力な予測因子であることを示す。
モデル誘起勾配のエントロピーを通して多様性を定量化する計量であるG-Vendiを導入する。
多様な合成データを生成するためのフレームワークであるPrismatic Synthesisを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:05:10Z) - Unraveling overoptimism and publication bias in ML-driven science [14.38643099447636]
最近の研究では、機械学習モデルのパフォーマンスが過度に最適化されていることが示唆されている。
本稿では,パラメトリック学習曲線と前述のバイアスを統合することで,観測精度の新たなモデルを提案する。
神経学的条件の分類のメタ分析にモデルを適用し、各領域におけるMLに基づく予測の固有の限界を推定する。
論文 参考訳(メタデータ) (2024-05-23T10:43:20Z) - A Comprehensive Evaluation and Analysis Study for Chinese Spelling Check [53.152011258252315]
音声とグラフィックの情報を合理的に使用することは,中国語のスペルチェックに有効であることを示す。
モデルはテストセットのエラー分布に敏感であり、モデルの欠点を反映している。
一般的なベンチマークであるSIGHANは、モデルの性能を確実に評価できない。
論文 参考訳(メタデータ) (2023-07-25T17:02:38Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [49.15931834209624]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Variable Importance Matching for Causal Inference [73.25504313552516]
これらの目標を達成するためのModel-to-Matchと呼ばれる一般的なフレームワークについて説明する。
Model-to-Matchは、距離メートル法を構築するために変数重要度測定を使用する。
LASSO を用いて Model-to-Match フレームワークを運用する。
論文 参考訳(メタデータ) (2023-02-23T00:43:03Z) - Evaluating natural language processing models with generalization
metrics that do not need access to any training or testing data [66.11139091362078]
本稿では,Hugingface から事前学習した大規模トランスフォーマーに対して,一般化指標を用いた最初のモデル選択結果を提案する。
ニッチな状況にもかかわらず、ヘビーテール(HT)の観点から派生したメトリクスは、特にNLPタスクにおいて有用である。
論文 参考訳(メタデータ) (2022-02-06T20:07:35Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Comparing hundreds of machine learning classifiers and discrete choice models in predicting travel behavior: an empirical benchmark [6.815730801645785]
多くの研究は、旅行需要予測において機械学習(ML)と離散選択モデル(DCM)を比較してきた。
これらの研究は、文脈変動を考慮せずに決定論的にモデルを比較するため、一般化性に欠けることが多い。
このベンチマークでは、2つの大規模データソースを比較した。
論文 参考訳(メタデータ) (2021-02-01T19:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。