論文の概要: Supervised Learning and Large Language Model Benchmarks on Mental Health
Datasets: Cognitive Distortions and Suicidal Risks in Chinese Social Media
- arxiv url: http://arxiv.org/abs/2309.03564v2
- Date: Wed, 1 Nov 2023 10:15:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 17:04:22.953757
- Title: Supervised Learning and Large Language Model Benchmarks on Mental Health
Datasets: Cognitive Distortions and Suicidal Risks in Chinese Social Media
- Title(参考訳): メンタルヘルスデータセットにおける教師付き学習と大規模言語モデルベンチマーク:中国のソーシャルメディアにおける認知歪みと自殺リスク
- Authors: Hongzhi Qi, Qing Zhao, Changwei Song, Wei Zhai, Dan Luo, Shuo Liu, Yi
Jing Yu, Fan Wang, Huijing Zou, Bing Xiang Yang, Jianqiang Li and Guanghui Fu
- Abstract要約: 中国のソーシャルメディアから新たに2つの注釈付きデータセットを導入し,認知的歪みと自殺リスク分類に着目した。
大きな言語モデルの能力を評価するために、ゼロショット、少数ショット、微調整という3つの戦略を採用しました。
GPT-4は一貫して強い結果を示したが, GPT-3.5は微調整後, 自殺リスク分類が著しく改善した。
- 参考スコア(独自算出の注目度): 24.130206803192635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the realm of social media, users frequently convey personal sentiments,
with some potentially indicating cognitive distortions or suicidal tendencies.
Timely recognition of such signs is pivotal for effective interventions. In
response, we introduce two novel annotated datasets from Chinese social media,
focused on cognitive distortions and suicidal risk classification. We propose a
comprehensive benchmark using both supervised learning and large language
models, especially from the GPT series, to evaluate performance on these
datasets. To assess the capabilities of the large language models, we employed
three strategies: zero-shot, few-shot, and fine-tuning. Furthermore, we deeply
explored and analyzed the performance of these large language models from a
psychological perspective, shedding light on their strengths and limitations in
identifying and understanding complex human emotions. Our evaluations
underscore a performance difference between the two approaches, with the models
often challenged by subtle category distinctions. While GPT-4 consistently
delivered strong results, GPT-3.5 showed marked improvement in suicide risk
classification after fine-tuning. This research is groundbreaking in its
evaluation of large language models for Chinese social media tasks,
accentuating the models' potential in psychological contexts. All datasets and
code are made available.
- Abstract(参考訳): ソーシャルメディアの世界では、ユーザーはしばしば個人の感情を伝達し、認知的歪曲や自殺傾向を示す可能性がある。
このような兆候をタイムリーに認識することは効果的な介入に重要である。
これに対し,中国ソーシャルメディアから新たに2つの注釈付きデータセットを導入し,認知的歪みと自殺リスク分類に着目した。
本稿では,教師付き学習モデルと大規模言語モデル,特にGPTシリーズを用いて,これらのデータセットの性能評価を行う。
大きな言語モデルの能力を評価するために、ゼロショット、少数ショット、微調整の3つの戦略を採用した。
さらに,これらの大規模言語モデルの性能を心理学的観点から深く掘り下げ,分析し,複雑な人間の感情を識別・理解する上での強みと限界に光を当てた。
我々の評価は2つのアプローチのパフォーマンスの違いを浮き彫りにしており、モデルはしばしば微妙なカテゴリーの区別によって挑戦される。
GPT-4は一貫して強い結果を示したが, GPT-3.5は微調整後, 自殺リスク分類が著しく改善した。
この研究は、中国のソーシャルメディアタスクにおける大規模言語モデルの評価において画期的であり、心理学的文脈におけるモデルの可能性を強調している。
すべてのデータセットとコードは利用可能である。
関連論文リスト
- An Assessment on Comprehending Mental Health through Large Language
Models [2.7044181783627086]
成人の20%以上が、生涯に少なくとも1つの精神障害に遭遇する可能性がある。
本研究では,このギャップに対処する上で,大規模言語モデルの初期評価を行う。
DAIC-WOZデータセットの結果から、BERTやXLNetのようなトランスフォーマーベースのモデルは、大きな言語モデルよりも優れています。
論文 参考訳(メタデータ) (2024-01-09T14:50:04Z) - MR-GSM8K: A Meta-Reasoning Revolution in Large Language Model Evaluation [65.07691494584843]
本稿では,メタ推論への取り組みに挑戦する,大規模言語モデルのための新しい評価パラダイムを提案する。
このアプローチは、エージェントの認知能力を評価するために伝統的に用いられてきた既存の数学問題解決ベンチマークにおける重大な欠点に対処する。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Text generation for dataset augmentation in security classification
tasks [55.70844429868403]
本研究では、複数のセキュリティ関連テキスト分類タスクにおいて、このデータギャップを埋めるための自然言語テキストジェネレータの適用性を評価する。
我々は,GPT-3データ拡張戦略において,既知の正のクラスサンプルに厳しい制約がある状況において,大きなメリットを見出した。
論文 参考訳(メタデータ) (2023-10-22T22:25:14Z) - Explainable Depression Symptom Detection in Social Media [2.433983268807517]
本稿では, トランスフォーマーアーキテクチャを用いて, ユーザの文章中の抑うつ症状マーカーの出現を検知し, 説明する。
我々の自然言語による説明により、臨床医はバリデーションされた症状に基づいてモデルの判断を解釈できる。
論文 参考訳(メタデータ) (2023-10-20T17:05:27Z) - Sensitivity, Performance, Robustness: Deconstructing the Effect of
Sociodemographic Prompting [64.80538055623842]
社会デマトグラフィープロンプトは、特定の社会デマトグラフィープロファイルを持つ人間が与える答えに向けて、プロンプトベースのモデルの出力を操縦する技術である。
ソシオデマトグラフィー情報はモデル予測に影響を及ぼし、主観的NLPタスクにおけるゼロショット学習を改善するのに有用であることを示す。
論文 参考訳(メタデータ) (2023-09-13T15:42:06Z) - Large Language Models Can Infer Psychological Dispositions of Social
Media Users [1.2277343096128712]
本研究では,デジタルフットプリントから個人の心理的沈着を推定する大規模言語モデルの可能性について検討した。
ゼロショット学習シナリオにおいて,GPT-3.5とGPT-4がユーザのFacebookステータス更新からビッグファイブの特徴を引き出す能力を評価する。
以上の結果から,性別や年齢に対する性格推定の偏りが示唆された。
論文 参考訳(メタデータ) (2023-09-13T01:27:48Z) - Bias and Fairness in Large Language Models: A Survey [76.65471160523444]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - A Wide Evaluation of ChatGPT on Affective Computing Tasks [32.557383931586266]
GPT-4 と GPT-3.5 という ChatGPT モデルの13 個の感情計算問題に対する性能について検討した。
我々はChatGPTを、エンドツーエンドのリカレントニューラルネットワークやトランスフォーマーといった従来のNLP手法と比較する。
この結果は、ChatGPTモデルが幅広い感情的コンピューティング問題において創発的能力を示すものである。
論文 参考訳(メタデータ) (2023-08-26T16:10:30Z) - A Quantitative and Qualitative Analysis of Suicide Ideation Detection
using Deep Learning [5.192118773220605]
本稿では,競合するソーシャルメディアによる自殺検知・予測モデルを再現した。
複数のデータセットと異なる最先端ディープラーニングモデルを用いて自殺思考の検出の可能性を検討した。
論文 参考訳(メタデータ) (2022-06-17T10:23:37Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。