論文の概要: Enhancing Sentiment Analysis Results through Outlier Detection
Optimization
- arxiv url: http://arxiv.org/abs/2311.16185v1
- Date: Sat, 25 Nov 2023 18:20:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 21:41:22.511765
- Title: Enhancing Sentiment Analysis Results through Outlier Detection
Optimization
- Title(参考訳): 外乱検出最適化による感性分析結果の強化
- Authors: Yuetian Chen and Mei Si
- Abstract要約: 本研究では,主観的ラベル付きテキストデータにおける外れ値の同定と対処の可能性について検討する。
本研究では,1クラス分類法であるDeep SVDDアルゴリズムを用いて,9つのテキストベース感情と感情分析データセットの外れ値を検出する。
- 参考スコア(独自算出の注目度): 0.5439020425819
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: When dealing with text data containing subjective labels like speaker
emotions, inaccuracies or discrepancies among labelers are not uncommon. Such
discrepancies can significantly affect the performance of machine learning
algorithms. This study investigates the potential of identifying and addressing
outliers in text data with subjective labels, aiming to enhance classification
outcomes. We utilized the Deep SVDD algorithm, a one-class classification
method, to detect outliers in nine text-based emotion and sentiment analysis
datasets. By employing both a small-sized language model (DistilBERT base model
with 66 million parameters) and non-deep learning machine learning algorithms
(decision tree, KNN, Logistic Regression, and LDA) as the classifier, our
findings suggest that the removal of outliers can lead to enhanced results in
most cases. Additionally, as outliers in such datasets are not necessarily
unlearnable, we experienced utilizing a large language model -- DeBERTa v3
large with 131 million parameters, which can capture very complex patterns in
data. We continued to observe performance enhancements across multiple
datasets.
- Abstract(参考訳): 話者の感情のような主観的なラベルを含むテキストデータを扱う場合、ラベル作成者間の不正確さや不一致は珍しくない。
このような不一致は、機械学習アルゴリズムのパフォーマンスに大きな影響を与える可能性がある。
本研究は,主観的ラベル付きテキストデータの異常値の識別と対処の可能性について検討し,分類結果の向上を目的としている。
我々は,9つのテキストベース感情と感情分析データセットの外れ値を検出するために,一クラス分類法であるDeep SVDDアルゴリズムを利用した。
小型言語モデル(6600万パラメータのディスティルトベースモデル)と非ディープラーニング機械学習アルゴリズム(決定木、kn、ロジスティック回帰、lda)の両方を分類器として採用することにより、異常値の除去が多くの場合、結果の向上につながる可能性が示唆された。
さらに、このようなデータセットの異常値が必ずしも理解できないわけではないため、大きな言語モデル -- deberta v3が1億3100万のパラメータを持ち、データ内の非常に複雑なパターンをキャプチャできる。
私たちは、複数のデータセットのパフォーマンス向上を観察し続けました。
関連論文リスト
- LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners [71.8257151788923]
低リソーステキスト分類のための新しい説明可能なアクティブラーニングフレームワーク(XAL)を提案する。
XALは分類器に対して、推論を正当化し、合理的な説明ができないラベルのないデータを掘り下げることを推奨している。
6つのデータセットの実験では、XALは9つの強いベースラインに対して一貫した改善を達成している。
論文 参考訳(メタデータ) (2023-10-09T08:07:04Z) - Machine Learning Based Missing Values Imputation in Categorical Datasets [2.5611256859404983]
この研究では、分類データセットのギャップを埋めるための機械学習アルゴリズムの使用について検討した。
Error Correction Output Codesフレームワークを使用して構築されたアンサンブルモデルに重点が置かれた。
大量のラベル付きデータの要求を含む、これらの奨励的な結果にもかかわらず、データ計算の欠如に対する深い学習には障害がある。
論文 参考訳(メタデータ) (2023-06-10T03:29:48Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Empirical evaluation of shallow and deep learning classifiers for Arabic
sentiment analysis [1.1172382217477126]
本研究は、アラビア語レビューの感情分析のためのディープラーニングモデルの性能を詳細に比較したものである。
この研究で使用されるデータセットは、アラビア語のホテルと本レビューデータセットである。
その結果,2次・複数ラベル分類では深層学習が浅層学習より優れており,文献で報告された同様の研究結果とは対照的であった。
論文 参考訳(メタデータ) (2021-12-01T14:45:43Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - CvS: Classification via Segmentation For Small Datasets [52.821178654631254]
本稿では,分類ラベルをセグメントマップの予測から導出する小型データセットのコスト効率の高い分類器であるCvSを提案する。
我々は,CvSが従来の手法よりもはるかに高い分類結果が得られることを示す多種多様な問題に対して,本フレームワークの有効性を評価する。
論文 参考訳(メタデータ) (2021-10-29T18:41:15Z) - Training Dynamic based data filtering may not work for NLP datasets [0.0]
NLPデータセットにおける誤り例を識別するために,AUM(Area Under the Margin)測定値の適用性を検討した。
我々は,NLPデータセットのAUM測定値を用いて誤ラベル付きサンプルをフィルタリングできることを発見したが,同時に,かなりの数の正確なラベル付きポイントを除去した。
論文 参考訳(メタデータ) (2021-09-19T18:50:45Z) - FIND: Human-in-the-Loop Debugging Deep Text Classifiers [55.135620983922564]
隠れた機能を無効にすることで、人間がディープラーニングテキスト分類器をデバッグできるフレームワークであるFINDを提案する。
実験により、人間はFINDを使用することで、異なる種類の不完全なデータセットの下で訓練されたCNNテキスト分類器を改善することができる。
論文 参考訳(メタデータ) (2020-10-10T12:52:53Z) - On the Robustness of Active Learning [0.7340017786387767]
Active Learningは、機械学習アルゴリズムをトレーニングする上で最も有用なサンプルを特定する方法に関するものだ。
十分な注意とドメイン知識を持っていないことがよくあります。
そこで本研究では,Simpson の多様性指標に基づく新たな "Sum of Squared Logits" 手法を提案する。
論文 参考訳(メタデータ) (2020-06-18T09:07:23Z) - Outlier Guided Optimization of Abdominal Segmentation [7.036733782879497]
腹部多臓器分割のための訓練済み3次元U-Netモデルを構築した。
私たちは、データセットを、外れ値データ(例えば、ベースラインアルゴリズムが失敗した例)または不一致値(例えば、ベースラインアルゴリズムが動作した例)で拡張します。
余剰値の追加の限界値は、余剰値の追加の限界値よりも高いことがわかった。
論文 参考訳(メタデータ) (2020-02-10T21:41:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。