論文の概要: Supervised Learning and Large Language Model Benchmarks on Mental Health Datasets: Cognitive Distortions and Suicidal Risks in Chinese Social Media
- arxiv url: http://arxiv.org/abs/2309.03564v3
- Date: Sun, 9 Jun 2024 12:49:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 05:19:21.059504
- Title: Supervised Learning and Large Language Model Benchmarks on Mental Health Datasets: Cognitive Distortions and Suicidal Risks in Chinese Social Media
- Title(参考訳): メンタルヘルスデータセットにおける教師付き学習と大規模言語モデルベンチマーク:中国のソーシャルメディアにおける認知的歪みと自殺リスク
- Authors: Hongzhi Qi, Qing Zhao, Jianqiang Li, Changwei Song, Wei Zhai, Dan Luo, Shuo Liu, Yi Jing Yu, Fan Wang, Huijing Zou, Bing Xiang Yang, Guanghui Fu,
- Abstract要約: 中国のソーシャルメディアから,自殺リスク分類のためのSOS-HL-1Kと,認知歪み検出のためのSocialCD-3Kの2つの新しいデータセットを紹介した。
本稿では,2つの教師付き学習手法と8つの大規模言語モデル(LLM)を用いた総合的な評価を提案する。
- 参考スコア(独自算出の注目度): 23.49883142003182
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: On social media, users often express their personal feelings, which may exhibit cognitive distortions or even suicidal tendencies on certain specific topics. Early recognition of these signs is critical for effective psychological intervention. In this paper, we introduce two novel datasets from Chinese social media: SOS-HL-1K for suicidal risk classification and SocialCD-3K for cognitive distortions detection. The SOS-HL-1K dataset contained 1,249 posts and SocialCD-3K dataset was a multi-label classification dataset that containing 3,407 posts. We propose a comprehensive evaluation using two supervised learning methods and eight large language models (LLMs) on the proposed datasets. From the prompt engineering perspective, we experimented with two types of prompt strategies, including four zero-shot and five few-shot strategies. We also evaluated the performance of the LLMs after fine-tuning on the proposed tasks. The experimental results show that there is still a huge gap between LLMs relying only on prompt engineering and supervised learning. In the suicide classification task, this gap is 6.95% points in F1-score, while in the cognitive distortion task, the gap is even more pronounced, reaching 31.53% points in F1-score. However, after fine-tuning, this difference is significantly reduced. In the suicide and cognitive distortion classification tasks, the gap decreases to 4.31% and 3.14%, respectively. This research highlights the potential of LLMs in psychological contexts, but supervised learning remains necessary for more challenging tasks. All datasets and code are made available.
- Abstract(参考訳): ソーシャルメディア上では、ユーザーは自分の感情を表現し、特定のトピックに対して認知的歪曲や自殺傾向を示すことがある。
これらの兆候の早期認識は効果的な心理的介入に重要である。
本稿では,中国のソーシャルメディアから,自殺リスク分類のためのSOS-HL-1Kと認知歪み検出のためのSocialCD-3Kの2つの新しいデータセットを紹介する。
SOS-HL-1Kデータセットは1,249のポストを含み、SocialCD-3Kデータセットは3,407のポストを含むマルチラベル分類データセットである。
本稿では,2つの教師付き学習手法と8つの大規模言語モデル(LLM)を用いた総合的な評価を提案する。
迅速なエンジニアリングの観点から、4つのゼロショット戦略と5つの数ショット戦略を含む2種類のプロンプト戦略を実験した。
また,提案課題の微調整後のLLMの性能評価を行った。
実験結果から,LLMには迅速な工学と教師あり学習にのみ依存する大きなギャップがあることが示唆された。
自殺分類タスクでは、このギャップはF1スコアで6.95%、認知歪みタスクでは、ギャップはさらに顕著になり、F1スコアで31.53%に達する。
しかし、微調整後、この差は著しく減少する。
自殺と認知の歪み分類では、それぞれ4.31%と3.14%に減少する。
この研究は、心理学的文脈におけるLLMの可能性を強調するが、より困難なタスクには教師あり学習が必要である。
すべてのデータセットとコードは利用可能である。
関連論文リスト
- Decoupling the Class Label and the Target Concept in Machine Unlearning [81.69857244976123]
機械学習の目的は、トレーニングデータの一部を除外した再トレーニングされたモデルを近似するために、トレーニングされたモデルを調整することだ。
過去の研究では、クラスワイド・アンラーニングが対象クラスの知識を忘れることに成功していることが示された。
我々は、TARget-aware Forgetting (TARF) という一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-12T14:53:30Z) - ThangDLU at #SMM4H 2024: Encoder-decoder models for classifying text data on social disorders in children and adolescents [49.00494558898933]
本稿では,#SMM4H (Social Media Mining for Health) 2024 Workshopのタスク3とタスク5への参加について述べる。
タスク3は、屋外環境が社会不安の症状に与える影響を議論するツイートを中心にした多クラス分類タスクである。
タスク5は、子供の医学的障害を報告しているツイートに焦点を当てたバイナリ分類タスクを含む。
BART-baseやT5-smallのような事前訓練されたエンコーダデコーダモデルからの転送学習を適用し、与えられたツイートの集合のラベルを同定した。
論文 参考訳(メタデータ) (2024-04-30T17:06:20Z) - SOS-1K: A Fine-grained Suicide Risk Classification Dataset for Chinese Social Media Analysis [22.709733830774788]
本研究では,自殺リスクの詳細な分類を目的とした,中国のソーシャルメディアデータセットを提案する。
事前訓練した7つのモデルについて, 自殺リスクが高い, 自殺リスクが少ない, 自殺リスクの細かい分類が0~10の2つのタスクで評価された。
ディープラーニングモデルは高い自殺リスクと低い自殺リスクを区別する上で優れた性能を示し、最良のモデルはF1スコア88.39%である。
論文 参考訳(メタデータ) (2024-04-19T06:58:51Z) - AI-Enhanced Cognitive Behavioral Therapy: Deep Learning and Large Language Models for Extracting Cognitive Pathways from Social Media Texts [27.240795549935463]
ソーシャルメディアからデータを収集し,認知経路抽出の課題を確立した。
我々は、精神療法士が重要な情報を素早く把握できるよう、テキスト要約タスクを構築した。
本研究では,ディープラーニングモデルと大規模言語モデルの性能評価を行った。
論文 参考訳(メタデータ) (2024-04-17T14:55:27Z) - Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。
LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。
LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T08:39:17Z) - Class Anchor Margin Loss for Content-Based Image Retrieval [97.81742911657497]
距離学習パラダイムに該当する新しいレペラ・トラクタ損失を提案するが、ペアを生成する必要がなく、直接L2メトリックに最適化する。
CBIRタスクにおいて,畳み込みアーキテクチャと変圧器アーキテクチャの両方を用いて,少数ショットおよびフルセットトレーニングの文脈で提案した目的を評価する。
論文 参考訳(メタデータ) (2023-06-01T12:53:10Z) - Evaluation of ChatGPT for NLP-based Mental Health Applications [0.0]
大規模言語モデル(LLM)は、いくつかの自然言語理解タスクで成功している。
本研究では,3つのテキストベースのメンタルヘルス分類タスクにおけるLCMベースのChatGPTの性能について報告する。
論文 参考訳(メタデータ) (2023-03-28T04:47:43Z) - A Quantitative and Qualitative Analysis of Suicide Ideation Detection
using Deep Learning [5.192118773220605]
本稿では,競合するソーシャルメディアによる自殺検知・予測モデルを再現した。
複数のデータセットと異なる最先端ディープラーニングモデルを用いて自殺思考の検出の可能性を検討した。
論文 参考訳(メタデータ) (2022-06-17T10:23:37Z) - Detecting Potentially Harmful and Protective Suicide-related Content on
Twitter: A Machine Learning Approach [0.1582078748632554]
我々は大量のTwitterデータを自動ラベル付けするために機械学習手法を適用した。
2つのディープラーニングモデルが2つの分類タスクで最高のパフォーマンスを達成した。
本研究は, 各種ソーシャルメディアコンテンツが自殺率, ヘルプ・サーキング行動に与える影響について, 今後の大規模調査を可能にするものである。
論文 参考訳(メタデータ) (2021-12-09T09:35:48Z) - LID 2020: The Learning from Imperfect Data Challenge Results [242.86700551532272]
Imperfect Dataワークショップからの学習は、新しいアプローチの開発に刺激を与え、促進することを目的としている。
我々は、弱教師付き学習環境における最先端のアプローチを見つけるために、3つの課題を編成する。
この技術的レポートは、課題のハイライトを要約している。
論文 参考訳(メタデータ) (2020-10-17T13:06:12Z) - Deep F-measure Maximization for End-to-End Speech Understanding [52.36496114728355]
本稿では,F測度に対する微分可能な近似法を提案し,標準バックプロパゲーションを用いてネットワークをトレーニングする。
我々は、アダルト、コミュニティ、犯罪の2つの標準フェアネスデータセットの実験を行い、ATISデータセットの音声・インテリジェンス検出と音声・COCOデータセットの音声・イメージ概念分類を行った。
これらの4つのタスクのすべてにおいて、F測定は、クロスエントロピー損失関数で訓練されたモデルと比較して、最大8%の絶対的な絶対的な改善を含む、マイクロF1スコアの改善をもたらす。
論文 参考訳(メタデータ) (2020-08-08T03:02:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。