論文の概要: Data Quality Matters: Suicide Intention Detection on Social Media Posts Using RoBERTa-CNN
- arxiv url: http://arxiv.org/abs/2402.02262v2
- Date: Fri, 20 Dec 2024 18:21:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:22:25.938287
- Title: Data Quality Matters: Suicide Intention Detection on Social Media Posts Using RoBERTa-CNN
- Title(参考訳): データ品質の問題:RoBERTa-CNNを用いたソーシャルメディア投稿における自殺意図検出
- Authors: Emily Lin, Jian Sun, Hsingyu Chen, Mohammad H. Mahoor,
- Abstract要約: 本論文は自殺監視班の投稿における自殺意図の同定に焦点をあてる。
最先端のRoBERTa-CNNモデルを利用した新しいディープラーニング手法を提案する。
- 参考スコア(独自算出の注目度): 39.143550443239064
- License:
- Abstract: Suicide remains a pressing global health concern, necessitating innovative approaches for early detection and intervention. This paper focuses on identifying suicidal intentions in posts from the SuicideWatch subreddit by proposing a novel deep-learning approach that utilizes the state-of-the-art RoBERTa-CNN model. The robustly Optimized BERT Pretraining Approach (RoBERTa) excels at capturing textual nuances and forming semantic relationships within the text. The remaining Convolutional Neural Network (CNN) head enhances RoBERTa's capacity to discern critical patterns from extensive datasets. To evaluate RoBERTa-CNN, we conducted experiments on the Suicide and Depression Detection dataset, yielding promising results. For instance, RoBERTa-CNN achieves a mean accuracy of 98% with a standard deviation (STD) of 0.0009. Additionally, we found that data quality significantly impacts the training of a robust model. To improve data quality, we removed noise from the text data while preserving its contextual content through either manually cleaning or utilizing the OpenAI API.
- Abstract(参考訳): 自殺は依然として世界的な健康問題であり、早期発見と介入のための革新的なアプローチを必要としている。
本稿では,現在最先端のRoBERTa-CNNモデルを用いた新しいディープラーニング手法を提案することにより,自殺監視のサブレディットからの投稿の自殺意図を特定することに焦点を当てた。
堅牢に最適化されたBERT Pretraining Approach (RoBERTa)は、テキストのニュアンスを捕捉し、テキスト内で意味的な関係を形成する。
残るCNN(Convolutional Neural Network)ヘッドは、RoBERTaの能力を高めて、広範なデータセットから重要なパターンを識別する。
RoBERTa-CNNを評価するために,自殺・抑うつ検出データセットの実験を行い,有望な結果を得た。
例えば、RoBERTa-CNNの平均精度は98%、標準偏差は0.0009である。
さらに、データ品質がロバストモデルのトレーニングに大きく影響していることがわかりました。
データ品質を改善するため、手作業によるクリーニングやOpenAI APIの利用を通じて、コンテキストコンテンツを保存しながら、テキストデータからノイズを取り除いた。
関連論文リスト
- A Comparative Analysis of Transformer and LSTM Models for Detecting Suicidal Ideation on Reddit [0.18416014644193066]
多くの人がRedditのようなソーシャルメディアプラットフォームで自殺的な考えを表明しています。
本稿では, 深層学習変換器モデルBERT, RoBERTa, DistilBERT, ALBERT, ELECTRAの有効性を検討した。
RoBERTaは93.22%、F1スコア93.14%の最も効果的なモデルとして登場した。
論文 参考訳(メタデータ) (2024-11-23T01:17:43Z) - Leveraging Large Language Models for Suicide Detection on Social Media with Limited Labels [3.1399304968349186]
本稿では,テキストベースのソーシャルメディア投稿における自殺的内容を自動的に検出するLarge Language Models (LLMs) について検討する。
我々は,Qwen2-72B-インストラクションの促進とLlama3-8B,Llama3.1-8B,Gemma2-9Bなどの微調整モデルを用いたアンサンブルアプローチを開発した。
実験の結果,アンサンブルモデルでは個々のモデルと比較して5%の精度で検出精度が向上した。
論文 参考訳(メタデータ) (2024-10-06T14:45:01Z) - Suicide Phenotyping from Clinical Notes in Safety-Net Psychiatric Hospital Using Multi-Label Classification with Pre-Trained Language Models [10.384299115679369]
事前訓練された言語モデルは、非構造的な臨床物語から自殺を識別する約束を提供する。
2つの微調整戦略を用いて4つのBERTモデルの性能評価を行った。
その結果, モデル最適化, ドメイン関連データによる事前学習, 単一マルチラベル分類戦略により, 自殺表現のモデル性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-09-27T16:13:38Z) - Dumpling GNN: Hybrid GNN Enables Better ADC Payload Activity Prediction Based on Chemical Structure [53.76752789814785]
DumplingGNNは、化学構造に基づいてADCペイロードのアクティビティを予測するために特別に設計された、ハイブリッドなグラフニューラルネットワークアーキテクチャである。
DNAトポイソメラーゼIインヒビターに着目した包括的ADCペイロードデータセットで評価を行った。
特別なADCペイロードデータセットに対して、例外的な精度(91.48%)、感度95.08%)、特異性(97.54%)を示す。
論文 参考訳(メタデータ) (2024-09-23T17:11:04Z) - SOS-1K: A Fine-grained Suicide Risk Classification Dataset for Chinese Social Media Analysis [22.709733830774788]
本研究では,自殺リスクの詳細な分類を目的とした,中国のソーシャルメディアデータセットを提案する。
事前訓練した7つのモデルについて, 自殺リスクが高い, 自殺リスクが少ない, 自殺リスクの細かい分類が0~10の2つのタスクで評価された。
ディープラーニングモデルは高い自殺リスクと低い自殺リスクを区別する上で優れた性能を示し、最良のモデルはF1スコア88.39%である。
論文 参考訳(メタデータ) (2024-04-19T06:58:51Z) - Uncertainty Quantification over Graph with Conformalized Graph Neural
Networks [52.20904874696597]
グラフニューラルネットワーク(GNN)は、グラフ構造化データに基づく強力な機械学習予測モデルである。
GNNには厳密な不確実性見積が欠如しており、エラーのコストが重要な設定での信頼性の高いデプロイメントが制限されている。
本稿では,共形予測(CP)をグラフベースモデルに拡張した共形GNN(CF-GNN)を提案する。
論文 参考訳(メタデータ) (2023-05-23T21:38:23Z) - Diffusion Denoising Process for Perceptron Bias in Out-of-distribution
Detection [67.49587673594276]
我々は、識別器モデルが入力の特定の特徴に対してより敏感であることを示唆する新しいパーセプトロンバイアスの仮定を導入し、過度な問題を引き起こした。
DMの拡散分解過程 (DDP) が非対称の新たな形態として機能し, 入力を高め, 過信問題を緩和するのに適していることを示す。
CIFAR10, CIFAR100, ImageNetによる実験により, 提案手法がSOTA手法より優れていることが示された。
論文 参考訳(メタデータ) (2022-11-21T08:45:08Z) - Out-of-Distribution Detection with Hilbert-Schmidt Independence
Optimization [114.43504951058796]
異常検出タスクはAIの安全性において重要な役割を担っている。
ディープニューラルネットワーク分類器は通常、アウト・オブ・ディストリビューション(OOD)の入力を、信頼性の高いイン・ディストリビューション・クラスに誤って分類する傾向がある。
我々は,OOD検出タスクにおいて実用的かつ理論的に有効な代替確率論的パラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-26T15:59:55Z) - An ensemble deep learning technique for detecting suicidal ideation from
posts in social media platforms [0.0]
本稿ではLSTM-Attention-CNN複合モデルを提案する。
提案されたモデルは90.3%の精度、F1スコア92.6%の精度を示した。
論文 参考訳(メタデータ) (2021-12-17T15:34:03Z) - Frequentist Uncertainty in Recurrent Neural Networks via Blockwise
Influence Functions [121.10450359856242]
リカレントニューラルネットワーク(RNN)は、シーケンシャルおよび時系列データのモデリングに有効である。
RNNにおける既存の不確実性定量化のアプローチは、主にベイズ法に基づいている。
a)モデルトレーニングに干渉せず、その精度を損なうことなく、(b)任意のRNNアーキテクチャに適用し、(c)推定不確かさ間隔に関する理論的カバレッジ保証を提供する。
論文 参考訳(メタデータ) (2020-06-20T22:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。