論文の概要: SOS-1K: A Fine-grained Suicide Risk Classification Dataset for Chinese Social Media Analysis
- arxiv url: http://arxiv.org/abs/2404.12659v1
- Date: Fri, 19 Apr 2024 06:58:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 15:55:43.355319
- Title: SOS-1K: A Fine-grained Suicide Risk Classification Dataset for Chinese Social Media Analysis
- Title(参考訳): SOS-1K:中国のソーシャルメディア分析のためのきめ細かい自殺リスク分類データセット
- Authors: Hongzhi Qi, Hanfei Liu, Jianqiang Li, Qing Zhao, Wei Zhai, Dan Luo, Tian Yu He, Shuo Liu, Bing Xiang Yang, Guanghui Fu,
- Abstract要約: 本研究では,自殺リスクの詳細な分類を目的とした,中国のソーシャルメディアデータセットを提案する。
事前訓練した7つのモデルについて, 自殺リスクが高い, 自殺リスクが少ない, 自殺リスクの細かい分類が0~10の2つのタスクで評価された。
ディープラーニングモデルは高い自殺リスクと低い自殺リスクを区別する上で優れた性能を示し、最良のモデルはF1スコア88.39%である。
- 参考スコア(独自算出の注目度): 22.709733830774788
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the social media, users frequently express personal emotions, a subset of which may indicate potential suicidal tendencies. The implicit and varied forms of expression in internet language complicate accurate and rapid identification of suicidal intent on social media, thus creating challenges for timely intervention efforts. The development of deep learning models for suicide risk detection is a promising solution, but there is a notable lack of relevant datasets, especially in the Chinese context. To address this gap, this study presents a Chinese social media dataset designed for fine-grained suicide risk classification, focusing on indicators such as expressions of suicide intent, methods of suicide, and urgency of timing. Seven pre-trained models were evaluated in two tasks: high and low suicide risk, and fine-grained suicide risk classification on a level of 0 to 10. In our experiments, deep learning models show good performance in distinguishing between high and low suicide risk, with the best model achieving an F1 score of 88.39%. However, the results for fine-grained suicide risk classification were still unsatisfactory, with an weighted F1 score of 50.89%. To address the issues of data imbalance and limited dataset size, we investigated both traditional and advanced, large language model based data augmentation techniques, demonstrating that data augmentation can enhance model performance by up to 4.65% points in F1-score. Notably, the Chinese MentalBERT model, which was pre-trained on psychological domain data, shows superior performance in both tasks. This study provides valuable insights for automatic identification of suicidal individuals, facilitating timely psychological intervention on social media platforms. The source code and data are publicly available.
- Abstract(参考訳): ソーシャルメディアでは、ユーザはしばしば個人的な感情を表現し、そのサブセットは自殺の危険性を示す可能性がある。
インターネット言語における暗黙的かつ多様な表現形式は、ソーシャルメディアに対する自殺意図の正確かつ迅速な識別を複雑にし、タイムリーな介入努力の課題を生み出している。
自殺リスク検出のためのディープラーニングモデルの開発は、有望な解決策であるが、特に中国の文脈において、関連するデータセットの欠如が顕著である。
このギャップに対処するため, 自殺意図の表現, 自殺の方法, タイミングの緊急性などの指標に着目した, きめ細かな自殺リスク分類を目的とした中国のソーシャルメディアデータセットを提案する。
事前訓練した7つのモデルについて, 自殺リスクが高い, 自殺リスクが少ない, 自殺リスクの細かい分類が0~10の2つのタスクで評価された。
本実験では,F1スコア88.39%を達成し,高い自殺リスクと低い自殺リスクを区別する深層学習モデルの有効性を示した。
しかし, 細粒度自殺リスク分類の結果はまだ不十分であり, 重み付きF1スコアは50.89%であった。
データ不均衡とデータセットサイズ制限の問題に対処するため、従来の言語モデルと大規模言語モデルに基づくデータ拡張技術の両方を調査し、F1スコアで最大4.65%の精度でデータ拡張がモデル性能を向上させることを実証した。
特に、心理ドメインデータに基づいて事前訓練された中国語のMentalBERTモデルは、両方のタスクにおいて優れたパフォーマンスを示す。
本研究は、自殺者の自動識別に有用な知見を提供し、ソーシャルメディアプラットフォームに対するタイムリーな心理的介入を促進する。
ソースコードとデータは公開されている。
関連論文リスト
- An Exploratory Deep Learning Approach for Predicting Subsequent Suicidal Acts in Chinese Psychological Support Hotlines [13.59130559079134]
自殺リスク評価のためのスケールベースの予測手法の精度は、オペレーターの専門性によって大きく異なる可能性がある。
本研究は,中国における自殺リスクを予測するために,長期音声データにディープラーニングを適用した最初の事例である。
論文 参考訳(メタデータ) (2024-08-29T11:51:41Z) - Non-Invasive Suicide Risk Prediction Through Speech Analysis [74.8396086718266]
自動自殺リスク評価のための非侵襲的音声ベースアプローチを提案する。
我々は、wav2vec、解釈可能な音声・音響特徴、深層学習に基づくスペクトル表現の3つの特徴セットを抽出する。
我々の最も効果的な音声モデルは、6.6.2,%$のバランスの取れた精度を達成する。
論文 参考訳(メタデータ) (2024-04-18T12:33:57Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI
Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。
データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。
大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文 参考訳(メタデータ) (2023-06-28T14:14:44Z) - Detecting Suicide Risk in Online Counseling Services: A Study in a
Low-Resource Language [5.2636083103718505]
本稿では,PLM(Pre-trained Language Model)と手作業による自殺的手がかりの固定セットを組み合わせたモデルを提案する。
我々のモデルは0.91ROC-AUCと0.55のF2スコアを達成し、会話の早い段階でも強いベースラインをはるかに上回っている。
論文 参考訳(メタデータ) (2022-09-11T10:06:14Z) - A Quantitative and Qualitative Analysis of Suicide Ideation Detection
using Deep Learning [5.192118773220605]
本稿では,競合するソーシャルメディアによる自殺検知・予測モデルを再現した。
複数のデータセットと異なる最先端ディープラーニングモデルを用いて自殺思考の検出の可能性を検討した。
論文 参考訳(メタデータ) (2022-06-17T10:23:37Z) - Am I No Good? Towards Detecting Perceived Burdensomeness and Thwarted
Belongingness from Suicide Notes [51.378225388679425]
本稿では,自殺ノートから知覚的バーデンサムネス(PB)とThwarted Belongingness(TB)を検出する新しい課題に対処するエンドツーエンドマルチタスクシステムを提案する。
また、ベンチマークCEASE-v2.0データセットに基づいて、手動で翻訳したコード混合自殺メモコーパス、CoMCEASE-v2.0を導入する。
自殺ノートの時間方向と感情情報を利用して全体のパフォーマンスを向上する。
論文 参考訳(メタデータ) (2022-05-20T06:31:08Z) - An ensemble deep learning technique for detecting suicidal ideation from
posts in social media platforms [0.0]
本稿ではLSTM-Attention-CNN複合モデルを提案する。
提案されたモデルは90.3%の精度、F1スコア92.6%の精度を示した。
論文 参考訳(メタデータ) (2021-12-17T15:34:03Z) - Detecting Potentially Harmful and Protective Suicide-related Content on
Twitter: A Machine Learning Approach [0.1582078748632554]
我々は大量のTwitterデータを自動ラベル付けするために機械学習手法を適用した。
2つのディープラーニングモデルが2つの分類タスクで最高のパフォーマンスを達成した。
本研究は, 各種ソーシャルメディアコンテンツが自殺率, ヘルプ・サーキング行動に与える影響について, 今後の大規模調査を可能にするものである。
論文 参考訳(メタデータ) (2021-12-09T09:35:48Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Can x2vec Save Lives? Integrating Graph and Language Embeddings for
Automatic Mental Health Classification [91.3755431537592]
グラフと言語の埋め込みモデル(metapath2vec と doc2vec)がリソース制限を回避する方法を示します。
統合されると、両データは高度に正確な予測を生成する(90%、偽陽性10%、偽陰性12%)。
これらの結果は、大規模ネットワークにおける行動と言語を同時に分析することの重要性の研究を拡大する。
論文 参考訳(メタデータ) (2020-01-04T20:56:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。